领域自适应的中文实体关系抽取研究

领域自适应的中文实体关系抽取研究

论文摘要

随着计算机的快速普及,互联网的迅猛发展,各式各样的信息呈爆炸式增加,如何从海量数据中准确、快速地获取用户真正需要的信息成为人们关注的话题。信息抽取的主要目的是将非结构化的自然语言文本转化成半结构化或结构化的数据,方便人们准确、快速地获取关键信息。关系抽取作为信息抽取的子任务和关键技术之一,已经逐渐发展成为众多自然语言处理任务的重要支撑技术。传统的关系抽取方法需要预先定义关系类型,依赖于大量人工标注的训练语料库,难以满足互联网海量信息处理的需求。本文提出了一种新的关系抽取研究框架,探索最大程度地避免人工参与,且具有较强领域自适应能力的关系抽取解决方案,提高关系抽取的自动化程度,增强可移植性。首先,通过分析关系实例上下文语言现象发现,绝大多数产生语义关系的实体对均可以由其上下文中的一般动词和一般名词触发描述(统称为特征词),由此,本文提出基于特征词聚类的方法,在一定规模的未标注语料库上实现关系类型的自动发现,实验中达到了与人工预定义关系类型相当的效果;其次,针对大量待处理的关系类型,本文提出基于Web Mining的关系种子集自动抽取方法,充分利用搜索引擎收集和处理大规模真实数据的能力和优势,抽取具有代表性的实体关系核心网,经过在选取的9种关系类型上进行实验,平均准确率达到了90.91%;再次,根据中文语言学特点,本文定义了启发式上下文模式及其泛化策略,引入Bootstrapping方法,以实体关系核心网作为输入,在未标注语料库上迭代地挖掘关系描述模式,并抽取关系元组,通过对采样的关系元组进行人工评价,平均准确率达到了88.24%,满足了实用系统的需求。最后,本文设计并实现了领域自适应的关系抽取平台XInfo,在该平台上,研究人员可以专注于算法的改进和研究,快速进行实验,为自然语言处理相关领域研究和应用提供支持。另外,本文以人物社会关系抽取作为应用任务,开发了一套人物社会关系在线演示系统,以直观、清晰的方式展示关系抽取效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 研究目的和意义
  • 1.3 关系抽取的历史
  • 1.4 关系抽取的研究现状
  • 1.4.1 先确定关系类型体系的方法
  • 1.4.2 后确定关系类型体系的方法
  • 1.5 问题的提出
  • 1.5.1 关系类型体系构建困难
  • 1.5.2 关系抽取标注语料库匮乏
  • 1.5.3 领域自适应的关系抽取研究滞后
  • 1.6 本文的主要研究内容
  • 第2章 基于特征词聚类的关系类型发现
  • 2.1 引言
  • 2.2 算法流程
  • 2.3 算法设计
  • 2.3.1 语料库获取
  • 2.3.2 种子实体抽取
  • 2.3.3 特征词抽取
  • 2.3.4 特征词聚类
  • 2.4 实验结果与分析
  • 2.4.1 实验数据
  • 2.4.2 评价标准
  • 2.4.3 结果与分析
  • 2.5 本章小结
  • 第3章 基于Web Mining的关系种子集抽取
  • 3.1 引言
  • 3.2 算法流程
  • 3.3 算法设计
  • 3.3.1 查询构造
  • 3.3.2 查询扩展
  • 3.3.3 网页检索
  • 3.3.4 答案抽取
  • 3.4 实验结果与分析
  • 3.4.1 实验数据
  • 3.4.2 评价标准
  • 3.4.3 结果与分析
  • 3.5 本章小结
  • 第4章 基于Bootstrapping的关系描述模式挖掘
  • 4.1 引言
  • 4.2 算法流程
  • 4.3 算法设计
  • 4.3.1 关系实例抽取
  • 4.3.2 上下文模式生成
  • 4.3.3 模式泛化与过滤
  • 4.3.4 元组抽取与评价
  • 4.4 实验结果与分析
  • 4.4.1 实验数据
  • 4.4.2 评价标准
  • 4.4.3 结果与分析
  • 4.5 本章小结
  • 第5章 领域自适应的关系抽取平台设计与实现
  • 5.1 引言
  • 5.2 关系抽取平台XInfo
  • 5.3 关系抽取演示系统
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    领域自适应的中文实体关系抽取研究
    下载Doc文档

    猜你喜欢