论文摘要
实体关系抽取就是从特定领域的文本中发现实体对间的各种语义关系,并以结构化的形式存储。它在信息检索、自动问答系统中有广泛的应用,且作为信息抽取领域中的一项关键技术越来越受到关注。与实体主要用于描述自然界中的一个物体或物体的集合不同,实体关系则是发掘实体间的显式或隐式语义联系。实体关系抽取系统的性能取决于多个方面,包括实体的正确探测,实体类型的正确判断,以及实体间关系类型的正确判断等。通常一个较完整的关系抽取系统应该包括依次相连的五个模块:NLP处理、命名实体识别、模式匹配或分类、共指消解、以及新关系的处理和规范化输出。为了实现一个比较完整的关系抽取系统,本文提出了使用最大熵模型的方法来实现实体关系的抽取,并将系统分为依次相连的三个模块:命名实体识别、共指消解、实体关系抽取。其成果和贡献主要体现在以下几个方面:1)命名实体识别:作为关系抽取的一个前续工作,实体识别是本系统的一个重要组成部分。本文采用条件随机场的机器学习算法,综合考虑实体前后一定窗口大小的词、词性等特征,来实现对人物、组织、GEP、位置、交通工具、设施、武器七大类实体的识别,取得了较好的效果。2)共指消解:由于一个命名实体在文本中的同一个句子中可能出现多次、其表现形式也可能多种多样,因此实体间的关系经常会被重复探测。针对在关系抽取中存在的上述问题,提出了通过规则的方法提取向量特征,并利用SVM机器学习算法训练分类器模型的方法实现实体间共指关系的消解。3)基于最大熵模型的实体关系抽取:这部分是本文的主要工作和研究的重点。本文综合考虑词、词性、实体、以及相应的组合特征构建关系抽取的特征集,并在特征构建过程中采用了停用词去除技术,并将共指消解技术用于命名实体的去重处理,避免了实体间关系的重复探测。在利用最大熵模型实现对实体关系自动抽取问题时,通过实验表明由于相对于最大熵算法其它的监督机器学习算法对最终的结果改进不大;在此基础上验证了实体的词和词性特征、停用词、及组合特征是对分类效果极其有用的特征,最终取得了较好的效果。4) DEMO:本系统集成了命名实体识别、共指消解、实体关系抽取三个依次相连的模块,实现对实体及其关系的自动抽取,最后设计了三组实验分别对它们予以测试。
论文目录
摘要ABSTRACT第一章 绪论1.1 选题背景及意义1.2 国内外研究现状1.3 本课题的研究内容1.4 论文的组织第二章 实体关系抽取中的关键技术研究2.1 实体关系抽取系统的框架2.2 实体关系抽取中的关键任务2.2.1 命名实体识别2.2.2 共指消解2.2.3 实体关系抽取2.3 实体关系抽取的技术路线2.3.1 基于模式匹配的方法2.3.2 基于词典驱动的方法2.3.3 基于机器学习的方法2.3.4 基于本体的方法2.3.5 混合抽取的方法2.4 本章小结第三章 基于CRFS的命名实体识别3.1 命名实体识别研究对象3.2 命名实体识别技术研究3.2.1 基于统计的机器学习方法概述3.2.2 机器学习的思想3.2.3 条件随机场模型(CRFs)3.3 命名实体识别模型的构建3.3.1 语料的选择3.3.2 语料的预处理与标注3.3.3 特征的选取3.3.4 特征模板的制定3.3.5 模型训练与实体预测3.4 本章小结第四章 基于SVM的共指消解4.1 关系抽取中引入共指消解的必要性4.2 共指消解技术研究4.2.1 共指消解研究的基本思想4.2.2 支持向量机(SvM)简述4.3 共指消解模型的构建4.3.1 模型结构与特征选取4.3.2 训练数据的处理4.3.3 共指消解模型的训练4.4 本章小结第五章 基于最大熵的实体关系抽取5.1 实体关系的研究对象5.1.1 关系抽取的任务5.1.2 实体关系的说明5.1.3 实体关系的研究方法现状5.2 实体关系抽取研究5.2.1 关系抽取的基本思想及框架5.2.2 最大熵模型(ME)5.3 实体关系抽取模型构建5.3.1 特征的选取5.3.2 语料的处理与标注5.3.3 模型训练和关系预测5.4 小结第六章 实验设计与分析6.1 实验数据及评测指标6.2 命名实体识别实验6.3 共指消解实验6.4 实体关系抽取实验的设计与结果分析6.4.1 不同机器学习算法对实验性能的影响6.4.2 停用词去除处理对实验性能的影响6.4.3 组合特征对实验性能的影响6.5 部分识别结果展示6.5.1 基于SVM的共指消解展示6.5.2 基于ME模型的实体关系抽取展示6.6 本章小结第七章 总结与展望7.1 总结7.2 展望致谢参考文献附录A 攻读硕士学位期间发表的学术论文附录B 攻读硕士学位期间参与的项目
相关论文文献
标签:命名实体论文; 共指消解论文; 实体关系抽取论文; 信息抽取论文; 最大熵模型论文;