实体关系自动抽取技术的比较研究

实体关系自动抽取技术的比较研究

论文摘要

随着计算机技术和网络技术的不断发展,海量信息以电子文档的形式出现在人们面前。从这些自然文本中提取出有用的信息,日益成为人们关注的问题。因此信息抽取技术应运而生,关系抽取是其中的一个子任务。文本中特定的事实信息称为实体,而确定这些实体之间的关系称为实体关系抽取。实体关系抽取对本体库的构建以及改进信息检索技术等有重要的作用。本文重点对实体关系抽取技术的几个问题进行了研究和解决:首先,本文抽取了传统命名实体以外的存在重要语义关系的词:领域术语。针对领域术语评测数据的不统一和评价的困难性,通过词典评测、人工评测在准确率、召回率、F度量等评价指标上与几种主流的基于统计的术语抽取方法进行了详细的对比和分析。本文还提出了基于线性支持向量机权重的术语抽取方法,实验结果表明,该方法能有效地抽取领域术语。其次,本文基于不同的应用需求,利用统一的语料对比研究了基于特征的有监督、半监督和无监督的实体关系抽取方法。在有监督实体关系抽取方法中,前人的研究工作没有考虑各种特征对两个实体间无关系即no-relation的影响。对此,本文详细对比了通用特征:实体周围词语、实体类型、子类型、实体位置、实体中心词和内容的依存句法分析对真正关系和no-relation的影响,并提出了新特征:特征词位置信息,实验表明该特征能有效提高实体关系抽取的准确率。本文通过Bootstrapping半监督实体关系抽取方法进行了不同的对比实验:实体特征、种子集规模对实体关系抽取性能的影响;同等条件下,半监督实体关系抽取方法与有监督实体关系抽取方法的性能比较。实验结果表明半监督实体关系抽取能够提高实体关系抽取的准确率。无监督实体关系抽取方法主要采用的是聚类方法,因此本文主要研究了聚类算法以及合并策略对实体关系抽取的影响。本文对比研究了三种聚类算法,即K-means、自组织映射和Affinity Propagation算法,以及两种合并策略(DCM和Cosine)。Affinity Propagation算法能够取得较优的结果,自组织映射算法在运行时间上更有优势。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的背景和意义
  • 1.2 领域术语及实体关系相关定义
  • 1.3 国内外研究现状
  • 1.3.1 领域术语自动抽取技术
  • 1.3.2 实体关系自动抽取技术
  • 1.4 本文的主要研究内容与组织
  • 1.4.1 本文内容
  • 1.4.2 本文组织
  • 第2章 领域术语自动抽取的比较研究
  • 2.1 引言
  • 2.2 领域术语自动抽取框架
  • 2.3 领域术语自动抽取方法
  • 2.3.1 基于线性支持向量机(SVM)权重的术语抽取方法
  • 2.3.2 术语抽取对比实验方法介绍
  • 2.4 实验与分析
  • 2.4.1 词典评测
  • 2.4.2 人工评测
  • 2.4.3 术语抽取方法稳定性评测
  • 2.5 本章小结
  • 第3章 有监督实体关系抽取的比较研究
  • 3.1 引言
  • 3.2 有监督实体关系抽取方法框架
  • 3.3 实体关系抽取分类算法介绍
  • 3.3.1 最大熵原理
  • 3.3.2 支持向量机原理
  • 3.4 特征抽取
  • 3.5 实验与分析
  • 3.5.1 实验结果评测指标
  • 3.5.2 实验结果分析
  • 3.6 本章小结
  • 第4章 半监督实体关系抽取的比较研究
  • 4.1 引言
  • 4.2 半监督实体关系抽取方法框架
  • 4.3 Bootstrapping方法
  • 4.4 实验与分析
  • 4.4.1 特征比较的实验与分析
  • 4.4.2 种子集规模比较的实验与分析
  • 4.5 本章小结
  • 第5章 无监督实体关系抽取的比较研究
  • 5.1 引言
  • 5.2 无监督实体关系抽取框架
  • 5.3 特征抽取及向量化
  • 5.4 聚类算法描述
  • 5.4.1 K-means聚类算法
  • 5.4.2 自组织映射聚类算法
  • 5.4.3 Affinity Propagation类算法
  • 5.5 关系标记
  • 5.6 实验与分析
  • 5.6.1 K-means方法实验与分析
  • 5.6.2 自组织映射方法实验与分析
  • 5.6.3 Affinity Propagation方法实验与分析
  • 5.7 DCM关系标记结果
  • 5.8 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].实体关系抽取综述[J]. 计算机工程与应用 2020(12)
    • [2].小规模知识库指导下的细分领域实体关系发现研究[J]. 情报学报 2019(11)
    • [3].基于句法分析的实体关系抽取[J]. 科技风 2018(15)
    • [4].基于依存句法的实体关系抽取[J]. 电子技术与软件工程 2016(24)
    • [5].实体关系抽取研究综述[J]. 信息工程大学学报 2016(05)
    • [6].基于句法语义特征的中文实体关系抽取[J]. 中文信息学报 2014(06)
    • [7].基于句法语义特征的中文实体关系抽取[J]. 北方文学 2016(20)
    • [8].基于协陪义动词的中文隐式实体关系抽取[J]. 计算机学报 2019(12)
    • [9].面向食品安全事件新闻文本的实体关系抽取研究[J]. 农业机械学报 2020(07)
    • [10].基于双向门控循环单元和双重注意力的实体关系抽取[J]. 广东石油化工学院学报 2020(03)
    • [11].面向招投标领域的远程监督实体关系抽取研究[J]. 计算机工程与应用 2020(17)
    • [12].深度学习实体关系抽取研究综述[J]. 软件学报 2019(06)
    • [13].弱监督军事实体关系识别[J]. 电子设计工程 2018(01)
    • [14].基于三支决策的两阶段实体关系抽取研究[J]. 计算机工程与应用 2018(09)
    • [15].中文实体关系抽取研究综述[J]. 计算机与现代化 2018(08)
    • [16].基于规则和本体的实体关系抽取系统研究[J]. 情报杂志 2010(S2)
    • [17].基于卷积神经网络的旅游领域实体关系抽取[J]. 青海师范大学学报(自然科学版) 2019(04)
    • [18].面向医学文本的实体关系抽取研究综述[J]. 郑州大学学报(理学版) 2020(04)
    • [19].中文开放式多元实体关系抽取[J]. 计算机科学 2017(S1)
    • [20].基于实体关系的犯罪网络识别机制[J]. 计算机应用研究 2011(03)
    • [21].集成学习算法在实体关系抽取中的应用[J]. 西安建筑科技大学学报(自然科学版) 2011(03)
    • [22].中文实体关系抽取研究[J]. 计算机工程与设计 2009(15)
    • [23].实体关系识别中长距离依赖问题的研究[J]. 小型微型计算机系统 2008(02)
    • [24].基于单实体语言模型的实体关系发现和描述[J]. 信息工程大学学报 2008(03)
    • [25].实体关系抽取的技术方法综述[J]. 现代图书情报技术 2008(08)
    • [26].实体关系抽取方法研究综述[J]. 计算机研究与发展 2020(07)
    • [27].基于依存分析的军事领域英文实体关系抽取研究[J]. 情报工程 2019(01)
    • [28].面向中文开放领域的多元实体关系抽取研究[J]. 智能系统学报 2019(03)
    • [29].面向中文专利的开放式实体关系抽取研究[J]. 计算机工程与应用 2015(01)
    • [30].无指导的中文开放式实体关系抽取[J]. 计算机研究与发展 2015(05)

    标签:;  ;  ;  ;  

    实体关系自动抽取技术的比较研究
    下载Doc文档

    猜你喜欢