领域实体属性及事件抽取技术研究

领域实体属性及事件抽取技术研究

论文摘要

目前,在自然语言处理领域中,信息抽取已经成为人们研究的热点。信息抽取系统获得的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。实体属性抽取和事件抽取作为信息抽取的两个方面,都侧重于为一些具体应用提供前期操作。实体属性抽取可以应用于定义新的实体、数据挖掘等实际应用,而事件抽取则可以应用于事件分类、事件跟踪等实际应用。本文采用自学习的方法进行实体属性抽取,利用最大熵模型进行事件抽取,具体的研究工作主要集中在以下几个方面:1.领域特征识别。领域特征识别是实体属性抽取的准备工作。本文采用自学习的方法进行领域特征识别,首先使用领域词汇作为种子词识别领域特征;然后根据领域特征总结得到的规则识别领域特征和相应的领域词汇;最后将新的领域词汇当作新种子词重新进行领域特征的识别,直到没有新的领域词汇出现。实验结果达到预期的效果。2.实体属性抽取。实体属性抽取的任务是抽取属性及属性值。本文的实体属性抽取建立在句法分析的基础之上,利用规则与统计相结合的方法实现。首先对已识别领域特征的文本流进行词法分析和句法分析,从得到的句法树中抽取出可能包含属性与属性值的句法块,进而从句法块中抽取出属性及相应的属性值。3.事件抽取。本文利用最大熵模型进行特定领域的事件抽取,首先分别使用统计和规则的方法识别事件元素对应的实体,然后通过最大熵模型判断事件元素是否属于该事件,从而实现事件抽取。该方法取得较好的实验结果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的背景和意义
  • 1.2 实体属性抽取介绍
  • 1.2.1 实体与实体属性
  • 1.2.2 实体属性抽取
  • 1.2.3 相关文献介绍
  • 1.3 事件抽取综述
  • 1.3.1 事件抽取
  • 1.3.2 事件抽取技术
  • 1.4 本文的研究内容及组织
  • 第2章 领域特征识别技术
  • 2.1 引言
  • 2.2 特征识别的方法及过程
  • 2.2.1 利用种子抽取领域特征
  • 2.2.2 根据领域特征获得组成规则
  • 2.2.3 利用规则识别候选领域特征
  • 2.2.4 根据候选领域特征抽取领域词汇
  • 2.3 实验结果及分析
  • 2.3.1 语料来源
  • 2.3.2 实验结果
  • 2.3.3 结果分析
  • 2.4 本章小结
  • 第3章 领域实体属性抽取
  • 3.1 引言
  • 3.2 隐马尔科夫模型
  • 3.2.1 隐马尔科夫模型描述
  • 3.2.2 Viterbi 算法
  • 3.3 领域实体属性抽取框架
  • 3.4 词性标注
  • 3.4.1 参数估计
  • 3.4.2 词性标注中的几个问题
  • 3.5 句法分析
  • 3.5.1 概率上下文无关文法
  • 3.5.2 欧雷算法
  • 3.6 实体属性及属性值抽取
  • 3.7 实验结果及分析
  • 3.7.1 实体属性抽取实验结果及分析
  • 3.7.2 实体属性值抽取实验结果及分析
  • 3.8 本章小结
  • 第4章 领域事件抽取
  • 4.1 引言
  • 4.2 最大熵模型介绍
  • 4.2.1 最大熵方法概述
  • 4.2.2 最大熵模型中两个问题
  • 4.3 军事演习信息抽取总体框架
  • 4.3.1 最大熵模型中特征选择
  • 4.4 军事演习事件元素抽取
  • 4.5 实验结果及分析
  • 4.5.1 评价标准
  • 4.5.2 实验结果
  • 4.5.3 实验结果分析
  • 4.6 本章小结
  • 结论
  • 参考文献
  • 附录
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    领域实体属性及事件抽取技术研究
    下载Doc文档

    猜你喜欢