结合领域知识的中文评价对象抽取研究

论文摘要

句子评价对象抽取是文本倾向性分析的重要组成部分,也是难点之一。目前国内外针对评价对象抽取已经开展了很多的研究工作,并取得了一定的成果。但是评价对象抽取这一问题本身存在着以下特点：对于不同领域,评价对象存在领域相关性；复合词、未登录评价对象完全准确地抽取困难；评价对象存在长距离依赖。这三个特点影响着评价对象的准确抽取,如果不能有效应对将影响抽取的精度。因此,本文针对这三个特点进行研究,并开展了以下研究工作：(1)针对评价对象的领域相关特点进行研究,提出结合领域知识的评价对象抽取算法。该算法首先建立领域词典,利用线性链、跳跃链和层叠条件随机场模型,并在词、词性、语法依赖和最近名词等特征的基础上结合领域词典特征,以更有效地识别领域相关的评价对象。然后针对模型所抽取出的评价对象结合领域规则进行处理,优化识别结果。实验结果显示,针对电子、经济和娱乐领域的语料进行抽取时,结合领域知识的评价对象抽取方法相对原模型有效解决了领域相关问题,提高抽取的精度。(2)结合领域知识对中间层模型进行优化,同时对层叠模型无法处理长距离依赖的问题进行研究,提出改进的线性跳跃链层叠条件随机场。算法进一步有效结合了领域知识,同时又克服了原层叠模型对于长距离依赖的不足。算法首先利用线性链模型抽取出候选评价对象,利用结合领域知识的改进的中间层模型进行过滤补充等优化处理之后,运用高层跳跃链模型抽取出评价对象,并进行基于领域规则的处理。实验结果显示,对于COAE2011电子、经济和娱乐领域的语料进行抽取时,算法能有效结合领域知识,同时解决了长距离依赖问题,能很好地进行不同领域句子评价对象的抽取。(3)综合(1)(2)的工作,设计了结合领域知识的中文评价对象抽取系统。该系统首先对采集的网络评论进行处理,提取词性、语法等信息,并建立领域词典和领域规则,之后利用改进的层叠条件随机场模型进行评价对象的抽取,最后通过对评价对象进行排序生成各领域网络评论的总结,及时准确地反馈当前网络评论热点。

论文目录

中文摘要

Abstract

第一章绪论

1.1 选题背景和意义

1.2 研究思路

1.3 本文主要贡献

1.4 组织结构

第二章国内外研究现状

2.1 评价对象抽取的定义

2.2 中文句子评价对象抽取的难点

2.3 评价对象抽取研究现状

2.3.1 基于语法分析和规则的方法

2.3.2 基于统计模板的方法

2.4 评价指标和数据集

2.4.1 实验数据集

2.4.2 评价指标

2.5 本章小结

第三章结合领域知识的评价对象抽取

3.1 基于CCRFs的评价对象抽取

3.1.1 条件随机场模型

3.1.2 层叠条件随机场

3.2 基于领域知识改进CCRFs评价对象抽取模型

3.2.1 特征选择

3.2.2 领域词词典

3.2.3 领域规则

3.3 实验结果与分析

3.3.1 系统框架

3.3.2 实验结果与分析

3.3.3 部分错误举例与分析

3.4 本章小结

第四章结合领域知识的改进层叠条件随机场

4.1 长距离依赖对基于CCRFs的中文评价对象抽取模型的影响

4.1.1 长距离依赖问题

4.1.2 不同领域的长距离依赖问题

4.2 基于领域知识改进CCRFs的中文评价对象识别

4.2.1 改进的CCRFs模型

4.2.2 结合领域知识的中间层模型

4.3 实验结果与分析

4.3.1 实验框架

4.3.2 实验结果与分析

4.4 本章小结

第五章结合领域知识的评价对象抽取原型系统设计

5.1 结合领域知识的评价对象抽取系统结构框架

5.2 系统功能描述

5.3 本章小结

第六章总结与展望

6.1 总结

6.2 展望

参考文献

致谢

个人简历

在学校期间的研究成果以及发表的学术论文

结合领域知识的中文评价对象抽取研究

论文摘要

论文目录

相关论文文献

猜你喜欢