中文事件抽取关键技术研究

中文事件抽取关键技术研究

论文摘要

信息抽取是从文本中自动获取信息的一种主要手段。针对自由文本的信息抽取一般包括实体及其关系的抽取。但真实世界不断发生变化,实体的关系和状态也随之发生变化。而事件反映了实体参与者之间的关系和状态的变化。因此要想捕捉到实体之间状态的变化,必须针对事件进行相关信息的抽取。目前事件的检测与识别(Event detection and recognition,VDR,又称事件抽取)已被ACE(Automatic content extraction)评测会议定义为一项基本任务。ACE2005将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件论元角色等。根据这个定义,可将事件抽取的任务分成两大核心子任务:(1)事件的检测和类型识别;(2)事件论元角色的抽取。除此以外,由于绝大部分的论元角色都是实体,因此实体的识别也是事件抽取的一项基本任务。本文从事件的检测和类型识别,事件论元角色的识别,事件触发词的识别以及实体的识别几个方面对信息抽取进行了研究,最后还针对事件抽取探讨了可信度估计的方法。具体来讲,本文主要从以下几方面作了研究:(1)研究了扩展名实体的识别。尝试利用半监督学习方法获取模式来缓解缺少大规模的扩展名实体的标注语料的局限性。具体采用了Bootstrapping这种自训练方法来自动获取模式;在迭代过程中利用准确率较高的词典资源评价模式的可信度,进而通过模式的可信度来评价实例的可信度,从而避免了叠代过程中的错误放大问题。在此基础上,研究了模式的泛化方法,提出了软模式和特征向量两种模式泛化的形式,并通过联合概率、二元同现概率和相似度的计算实现了模糊匹配,有效地提升了模式的覆盖能力和系统的性能。(2)对事件的检测和分类,以及事件触发词的识别进行了相关研究。针对ACE语料中存在着规模小,类别不平衡等问题,尝试利用好的特征选择策略来克服一般分类器在小类别和难识别类别上性能不佳的弊端。提出了一种基于局部特征选择和正负特征相结合的特征选择策略,充分保证了分类器在每个类别(尤其是小类别和难识别类别)上的识别效果。除此以外,研究了在事件类别已知的情况下事件触发词的识别,提出充分利用正反例特征,和《同义词词林》、Hownet等语义词典扩展特征的基础上进行触发词的识别策略。(3)研究了事件论元角色的识别。为了充分利用词法、句法等不同层级的语言信息,提出利用多层级模式的方法来进行事件论元角色的识别。每一级模式都包含不同层级的语言信息,既充分利用了准确率高的浅层词法信息,也考虑到了更能反应语言意义的依存句法信息;同时在更深层次的模式中引入软匹配部分,使模式更灵活,实现了模式的模糊匹配。接着,又探讨了基于CRF模型的事件角色识别方法,同时在特征选择中,将模式及其相似度作为特征,不仅扩大了分类器中使用的特征范围,而且使用的特征更加细致和全面,获得了较好的事件角色识别效果。(4)探讨了事件抽取可信度估计的方法。针对事件抽取存在精确率不完美的问题,探讨了两种可信度估计方法,一种是利用源系统输出概率进行直接的可信度估计;另一种是独立的基于ME的可信度估计方法。并利用ROC方法对可信度估计进行了评价。结果表明,独立的可信度估计策略比直接利用源系统的输出进行可信度估计显示出了更好的估计能力,为系统的实际使用奠定了基础。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究的背景和意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 相关研究综述
  • 1.2.1 信息抽取研究综述
  • 1.2.2 事件抽取研究综述
  • 1.2.3 名实体识别概述
  • 1.3 本文的主要研究内容
  • 第2章 基于Bootstrapping方法获取模式的扩展的名实体识别
  • 2.1 引言
  • 2.2 Bootstrapping与基于模式方法的概述
  • 2.2.1 Bootstrapping方法
  • 2.2.2 基于模式的方法
  • 2.3 基于Bootstrapping的模式学习
  • 2.3.1 名实体识别中模式的形式
  • 2.3.2 模式的获取过程
  • 2.3.3 模式的评价和实例的选择
  • 2.4 模式的泛化与匹配
  • 2.4.1 将模式泛化为软模式
  • 2.4.2 将模式泛化为特征向量
  • 2.5 实验与讨论
  • 2.5.1 实验结果与分析
  • 2.5.2 已有的相关工作及讨论
  • 2.6 本章小结
  • 第3章 基于局部特征选择和正负特征相结合的事件检测与分类
  • 3.1 引言
  • 3.2 事件检测与分类问题分析
  • 3.2.1 问题的理解和描述
  • 3.2.2 句子的表示
  • 3.2.3 ACE语料分析
  • 3.3 特征选择的一般方法
  • 3.3.1 特征选择的一般过程
  • 3.3.2 常见的特征选择策略
  • 3.4 基于特征选择的事件检测和分类
  • 3.4.1 几个相关概念
  • 3.4.2 最大熵模型和SVM模型
  • 3.4.3 基于全局特征选择的事件检测和分类
  • 3.4.4 基于局部特征选择和正负特征相结合的事件检测和分类
  • 3.5 事件触发词的识别
  • 3.5.1 问题分析和描述
  • 3.5.2 识别策略
  • 3.5.3 特征的扩展和选择
  • 3.5.4 实验结果与分析
  • 3.6 本章小结
  • 第4章 基于多层级模式和CRF模型的事件论元角色的识别
  • 4.1 引言
  • 4.2 问题概述
  • 4.2.1 论元和角色的概念
  • 4.2.2 问题分析
  • 4.3 基于多层级模式的事件论元角色识别
  • 4.3.1 依存语法
  • 4.3.2 模式的形式
  • 4.3.3 模式的获取
  • 4.3.4 模式的匹配
  • 4.3.5 基于多层级模式的方法
  • 4.3.6 实验结果与分析
  • 4.4 基于CRF模型的论元角色识别
  • 4.4.1 CRF模型简介
  • 4.4.2 采用的特征
  • 4.4.3 实验结果与分析
  • 4.4.4 已有的相关工作及讨论
  • 4.5 本章小结
  • 第5章 事件抽取的可信度估计
  • 5.1 引言
  • 5.2 可信度估计
  • 5.2.1 可信度估计概述
  • 5.2.2 事件抽取的可信度估计方法
  • 5.3 可信度估计的评价
  • 5.3.1 主要的评价方法
  • 5.3.2 ROC方法介绍
  • 5.4 实验及讨论
  • 5.4.1 事件抽取系统的建立
  • 5.4.2 相关的可信度估计实验
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].基于随机森林特征选择的森林类型分类[J]. 北京测绘 2019(12)
    • [2].特征选择稳定性研究综述[J]. 软件学报 2018(09)
    • [3].基于成对约束分的特征选择及稳定性评价[J]. 计算机与数字工程 2019(06)
    • [4].基于样本邻域保持的代价敏感特征选择[J]. 数据采集与处理 2018(02)
    • [5].基于特征聚类集成技术的在线特征选择[J]. 计算机应用 2017(03)
    • [6].一种基于特征选择的入侵检测方法[J]. 吉林大学学报(理学版) 2015(01)
    • [7].基于支持向量机及特征选择的单通道脑电波睡眠分期研究[J]. 生物医学工程学杂志 2015(03)
    • [8].一种快速的特征选择框架和方法[J]. 北京邮电大学学报 2019(03)
    • [9].特征选择研究综述[J]. 信息与电脑(理论版) 2017(24)
    • [10].基于自适应显著特征选择的动态加权平均行人识别模型[J]. 计算机工程与科学 2017(05)
    • [11].基于在线特征选择的网络流异常检测[J]. 山东大学学报(工学版) 2016(04)
    • [12].基于重采样与特征选择的不均衡数据分类算法[J]. 小型微型计算机系统 2020(06)
    • [13].基于条件相关的特征选择方法[J]. 吉林大学学报(工学版) 2018(03)
    • [14].基于局部特征选择的微博中文文本分类研究[J]. 现代计算机(专业版) 2017(23)
    • [15].改进枢轴特征选择的跨领域情感分类[J]. 计算机工程与设计 2020(11)
    • [16].基于独立特征选择和局部保持投影的故障诊断[J]. 机械设计与研究 2020(03)
    • [17].基于有效距离的迭代特征选择[J]. 小型微型计算机系统 2017(05)
    • [18].一种基于嵌入式特征选择的垃圾邮件过滤模型[J]. 小型微型计算机系统 2009(08)
    • [19].多准则融合在数据特征选择中的应用[J]. 控制工程 2018(06)
    • [20].入侵检测中特征选择技术的应用[J]. 计算机时代 2018(09)
    • [21].生物特征身份识别中的特征选择与先进的识别算法[J]. 北京邮电大学学报 2009(02)
    • [22].基于已选特征动态变化的非线性特征选择方法[J]. 吉林大学学报(工学版) 2019(04)
    • [23].中文文本特征选择方法研究综述[J]. 工业控制计算机 2017(11)
    • [24].基于特征选择和深度信念网络的文本情感分类算法[J]. 计算机应用 2019(07)
    • [25].基于l_(1,2)惩罚典型相关分析的特征选择[J]. 计算机应用与软件 2019(10)
    • [26].基于分治排序策略的流量二次特征选择[J]. 电子学报 2017(01)
    • [27].基于大学生思想特征选择开展群体活动的路径[J]. 科学大众(科学教育) 2012(03)
    • [28].一种基于Z-score的微博文本情感分类方法[J]. 信息与电脑(理论版) 2018(06)
    • [29].多模场景下的高维数据的特征选择及分类研究[J]. 信息技术 2018(07)
    • [30].基于XGBoost特征选择的幕课翘课指数建立及应用[J]. 电子科技大学学报 2018(06)

    标签:;  ;  ;  ;  ;  

    中文事件抽取关键技术研究
    下载Doc文档

    猜你喜欢