论文摘要
信息抽取是从文本中自动获取信息的一种主要手段。针对自由文本的信息抽取一般包括实体及其关系的抽取。但真实世界不断发生变化,实体的关系和状态也随之发生变化。而事件反映了实体参与者之间的关系和状态的变化。因此要想捕捉到实体之间状态的变化,必须针对事件进行相关信息的抽取。目前事件的检测与识别(Event detection and recognition,VDR,又称事件抽取)已被ACE(Automatic content extraction)评测会议定义为一项基本任务。ACE2005将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件论元角色等。根据这个定义,可将事件抽取的任务分成两大核心子任务:(1)事件的检测和类型识别;(2)事件论元角色的抽取。除此以外,由于绝大部分的论元角色都是实体,因此实体的识别也是事件抽取的一项基本任务。本文从事件的检测和类型识别,事件论元角色的识别,事件触发词的识别以及实体的识别几个方面对信息抽取进行了研究,最后还针对事件抽取探讨了可信度估计的方法。具体来讲,本文主要从以下几方面作了研究:(1)研究了扩展名实体的识别。尝试利用半监督学习方法获取模式来缓解缺少大规模的扩展名实体的标注语料的局限性。具体采用了Bootstrapping这种自训练方法来自动获取模式;在迭代过程中利用准确率较高的词典资源评价模式的可信度,进而通过模式的可信度来评价实例的可信度,从而避免了叠代过程中的错误放大问题。在此基础上,研究了模式的泛化方法,提出了软模式和特征向量两种模式泛化的形式,并通过联合概率、二元同现概率和相似度的计算实现了模糊匹配,有效地提升了模式的覆盖能力和系统的性能。(2)对事件的检测和分类,以及事件触发词的识别进行了相关研究。针对ACE语料中存在着规模小,类别不平衡等问题,尝试利用好的特征选择策略来克服一般分类器在小类别和难识别类别上性能不佳的弊端。提出了一种基于局部特征选择和正负特征相结合的特征选择策略,充分保证了分类器在每个类别(尤其是小类别和难识别类别)上的识别效果。除此以外,研究了在事件类别已知的情况下事件触发词的识别,提出充分利用正反例特征,和《同义词词林》、Hownet等语义词典扩展特征的基础上进行触发词的识别策略。(3)研究了事件论元角色的识别。为了充分利用词法、句法等不同层级的语言信息,提出利用多层级模式的方法来进行事件论元角色的识别。每一级模式都包含不同层级的语言信息,既充分利用了准确率高的浅层词法信息,也考虑到了更能反应语言意义的依存句法信息;同时在更深层次的模式中引入软匹配部分,使模式更灵活,实现了模式的模糊匹配。接着,又探讨了基于CRF模型的事件角色识别方法,同时在特征选择中,将模式及其相似度作为特征,不仅扩大了分类器中使用的特征范围,而且使用的特征更加细致和全面,获得了较好的事件角色识别效果。(4)探讨了事件抽取可信度估计的方法。针对事件抽取存在精确率不完美的问题,探讨了两种可信度估计方法,一种是利用源系统输出概率进行直接的可信度估计;另一种是独立的基于ME的可信度估计方法。并利用ROC方法对可信度估计进行了评价。结果表明,独立的可信度估计策略比直接利用源系统的输出进行可信度估计显示出了更好的估计能力,为系统的实际使用奠定了基础。
论文目录
相关论文文献
- [1].基于随机森林特征选择的森林类型分类[J]. 北京测绘 2019(12)
- [2].特征选择稳定性研究综述[J]. 软件学报 2018(09)
- [3].基于成对约束分的特征选择及稳定性评价[J]. 计算机与数字工程 2019(06)
- [4].基于样本邻域保持的代价敏感特征选择[J]. 数据采集与处理 2018(02)
- [5].基于特征聚类集成技术的在线特征选择[J]. 计算机应用 2017(03)
- [6].一种基于特征选择的入侵检测方法[J]. 吉林大学学报(理学版) 2015(01)
- [7].基于支持向量机及特征选择的单通道脑电波睡眠分期研究[J]. 生物医学工程学杂志 2015(03)
- [8].一种快速的特征选择框架和方法[J]. 北京邮电大学学报 2019(03)
- [9].特征选择研究综述[J]. 信息与电脑(理论版) 2017(24)
- [10].基于自适应显著特征选择的动态加权平均行人识别模型[J]. 计算机工程与科学 2017(05)
- [11].基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版) 2016(04)
- [12].基于重采样与特征选择的不均衡数据分类算法[J]. 小型微型计算机系统 2020(06)
- [13].基于条件相关的特征选择方法[J]. 吉林大学学报(工学版) 2018(03)
- [14].基于局部特征选择的微博中文文本分类研究[J]. 现代计算机(专业版) 2017(23)
- [15].改进枢轴特征选择的跨领域情感分类[J]. 计算机工程与设计 2020(11)
- [16].基于独立特征选择和局部保持投影的故障诊断[J]. 机械设计与研究 2020(03)
- [17].基于有效距离的迭代特征选择[J]. 小型微型计算机系统 2017(05)
- [18].一种基于嵌入式特征选择的垃圾邮件过滤模型[J]. 小型微型计算机系统 2009(08)
- [19].多准则融合在数据特征选择中的应用[J]. 控制工程 2018(06)
- [20].入侵检测中特征选择技术的应用[J]. 计算机时代 2018(09)
- [21].生物特征身份识别中的特征选择与先进的识别算法[J]. 北京邮电大学学报 2009(02)
- [22].基于已选特征动态变化的非线性特征选择方法[J]. 吉林大学学报(工学版) 2019(04)
- [23].中文文本特征选择方法研究综述[J]. 工业控制计算机 2017(11)
- [24].基于特征选择和深度信念网络的文本情感分类算法[J]. 计算机应用 2019(07)
- [25].基于l_(1,2)惩罚典型相关分析的特征选择[J]. 计算机应用与软件 2019(10)
- [26].基于分治排序策略的流量二次特征选择[J]. 电子学报 2017(01)
- [27].基于大学生思想特征选择开展群体活动的路径[J]. 科学大众(科学教育) 2012(03)
- [28].一种基于Z-score的微博文本情感分类方法[J]. 信息与电脑(理论版) 2018(06)
- [29].多模场景下的高维数据的特征选择及分类研究[J]. 信息技术 2018(07)
- [30].基于XGBoost特征选择的幕课翘课指数建立及应用[J]. 电子科技大学学报 2018(06)