论文摘要
评论挖掘就是对评论文本的挖掘与分析,包括对文章主客观性的判断和评论褒贬义的判断以及句子层的评论文章基本要素的抽取,如抽取评论对象的名称,特征,评论词以及态度倾向等。评论挖掘是目前自然语言处理领域研究的热点,在商业产品用户反馈分析、政府舆情分析、垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。评论挖掘研究的涉及面很广,包括自然语言处理,机器学习,统计分析等等。本文在对评论挖掘任务,研究意义以及前人在这个领域的研究成果进行了概括介绍后结合实际评论挖掘系统研制着重对其中几项关键技术进行了深入的探讨与分析。本文的主要任务阐述了如何将无结构化的评论语句转化为结构化的评论信息记录,包括产品名称,产品特征,评论词以及情感倾向。本文分4步解决这一任务:1,识别评论对象和评论词,2,抽取评论词与评论对象的关系,3,扩充评论关系对为评论3元组,4,判断情感倾向。文中重点介绍了前面2个步骤,我们对评论对象和评论词的识别采用不同的策略,采用机器学习的方法识别评论对象,实验结果表明结合了分词特征的方法能够有效提高识别的准确率。对于评论关系抽取,我们所采用的方法是将同一句子中共现的评价词与评价对象作为候选集合,应用链式线性条件随机场模型并结合词,词性,语义和位置等特征进行关系抽取。我们所提出的方法一定程度上解决了指代消解以及评价对象遗漏的问题。实验结果表明该方法的F值比取最近评价对象的Baseline方法有了15%的提高,并且发现程度副词能够帮助提高主观性评论关系抽取的性能。最后,阐述了作者在评论挖掘研究过程中的心得体会,并对研究成果进行了总结,对该领域的发展前景进行了展望。