论文摘要
句子评价对象抽取是文本倾向性分析的重要组成部分,也是难点之一。目前国内外针对评价对象抽取已经开展了很多的研究工作,并取得了一定的成果。但是评价对象抽取这一问题本身存在着以下特点:对于不同领域,评价对象存在领域相关性;复合词、未登录评价对象完全准确地抽取困难;评价对象存在长距离依赖。这三个特点影响着评价对象的准确抽取,如果不能有效应对将影响抽取的精度。因此,本文针对这三个特点进行研究,并开展了以下研究工作:(1)针对评价对象的领域相关特点进行研究,提出结合领域知识的评价对象抽取算法。该算法首先建立领域词典,利用线性链、跳跃链和层叠条件随机场模型,并在词、词性、语法依赖和最近名词等特征的基础上结合领域词典特征,以更有效地识别领域相关的评价对象。然后针对模型所抽取出的评价对象结合领域规则进行处理,优化识别结果。实验结果显示,针对电子、经济和娱乐领域的语料进行抽取时,结合领域知识的评价对象抽取方法相对原模型有效解决了领域相关问题,提高抽取的精度。(2)结合领域知识对中间层模型进行优化,同时对层叠模型无法处理长距离依赖的问题进行研究,提出改进的线性跳跃链层叠条件随机场。算法进一步有效结合了领域知识,同时又克服了原层叠模型对于长距离依赖的不足。算法首先利用线性链模型抽取出候选评价对象,利用结合领域知识的改进的中间层模型进行过滤补充等优化处理之后,运用高层跳跃链模型抽取出评价对象,并进行基于领域规则的处理。实验结果显示,对于COAE2011电子、经济和娱乐领域的语料进行抽取时,算法能有效结合领域知识,同时解决了长距离依赖问题,能很好地进行不同领域句子评价对象的抽取。(3)综合(1)(2)的工作,设计了结合领域知识的中文评价对象抽取系统。该系统首先对采集的网络评论进行处理,提取词性、语法等信息,并建立领域词典和领域规则,之后利用改进的层叠条件随机场模型进行评价对象的抽取,最后通过对评价对象进行排序生成各领域网络评论的总结,及时准确地反馈当前网络评论热点。