论文摘要
目前,在自然语言处理领域中,信息抽取已经成为人们研究的热点。信息抽取系统获得的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。实体属性抽取和事件抽取作为信息抽取的两个方面,都侧重于为一些具体应用提供前期操作。实体属性抽取可以应用于定义新的实体、数据挖掘等实际应用,而事件抽取则可以应用于事件分类、事件跟踪等实际应用。本文采用自学习的方法进行实体属性抽取,利用最大熵模型进行事件抽取,具体的研究工作主要集中在以下几个方面:1.领域特征识别。领域特征识别是实体属性抽取的准备工作。本文采用自学习的方法进行领域特征识别,首先使用领域词汇作为种子词识别领域特征;然后根据领域特征总结得到的规则识别领域特征和相应的领域词汇;最后将新的领域词汇当作新种子词重新进行领域特征的识别,直到没有新的领域词汇出现。实验结果达到预期的效果。2.实体属性抽取。实体属性抽取的任务是抽取属性及属性值。本文的实体属性抽取建立在句法分析的基础之上,利用规则与统计相结合的方法实现。首先对已识别领域特征的文本流进行词法分析和句法分析,从得到的句法树中抽取出可能包含属性与属性值的句法块,进而从句法块中抽取出属性及相应的属性值。3.事件抽取。本文利用最大熵模型进行特定领域的事件抽取,首先分别使用统计和规则的方法识别事件元素对应的实体,然后通过最大熵模型判断事件元素是否属于该事件,从而实现事件抽取。该方法取得较好的实验结果。
论文目录
摘要Abstract第1章 绪论1.1 课题研究的背景和意义1.2 实体属性抽取介绍1.2.1 实体与实体属性1.2.2 实体属性抽取1.2.3 相关文献介绍1.3 事件抽取综述1.3.1 事件抽取1.3.2 事件抽取技术1.4 本文的研究内容及组织第2章 领域特征识别技术2.1 引言2.2 特征识别的方法及过程2.2.1 利用种子抽取领域特征2.2.2 根据领域特征获得组成规则2.2.3 利用规则识别候选领域特征2.2.4 根据候选领域特征抽取领域词汇2.3 实验结果及分析2.3.1 语料来源2.3.2 实验结果2.3.3 结果分析2.4 本章小结第3章 领域实体属性抽取3.1 引言3.2 隐马尔科夫模型3.2.1 隐马尔科夫模型描述3.2.2 Viterbi 算法3.3 领域实体属性抽取框架3.4 词性标注3.4.1 参数估计3.4.2 词性标注中的几个问题3.5 句法分析3.5.1 概率上下文无关文法3.5.2 欧雷算法3.6 实体属性及属性值抽取3.7 实验结果及分析3.7.1 实体属性抽取实验结果及分析3.7.2 实体属性值抽取实验结果及分析3.8 本章小结第4章 领域事件抽取4.1 引言4.2 最大熵模型介绍4.2.1 最大熵方法概述4.2.2 最大熵模型中两个问题4.3 军事演习信息抽取总体框架4.3.1 最大熵模型中特征选择4.4 军事演习事件元素抽取4.5 实验结果及分析4.5.1 评价标准4.5.2 实验结果4.5.3 实验结果分析4.6 本章小结结论参考文献附录致谢
相关论文文献
标签:信息抽取论文; 实体属性抽取论文; 事件抽取论文; 隐马尔科夫模型论文; 最大熵模型论文;