基于文本的实体—关系抽取技术研究

基于文本的实体—关系抽取技术研究

论文摘要

信息抽取(Information Extraction)技术可以从非结构化数据中抽取人们感兴趣的实体、关系、事件等,形成结构化存储以供查询检索。命名实体识别和实体间关系抽取是信息抽取中两个非常重要的子任务,也是研究的热点问题。随着文本数据的爆炸式增长,如何使用丰富的未标注语料来提高信息抽取的性能成为一个迫切的问题,在这方面,以有监督为代表的传统方法表现不佳,采用弱监督和无监督方法进行处理成为当前的趋势。本文在深入研究总结前人研究成果的基础上,对弱监督的命名实体识别和关系抽取进行了改进,并取得了良好的效果。在命名实体识别方面,本文提出了SACRF(Self-training with Active learning based on CRF)方法,依据少量的初始训练语料和大量未标注数据,采用条件随机场作为基础分类器,使用自学习方法自动扩展未标注语料,并使用主动学习标注置信度低的样本。实验表明,该方法在自动扩展训练集、提高实体识别的准确率和召回率的同时,能够显著降低人工标注的工作量。在关系抽取方面,基于传统弱监督方法存在的噪声引入以及准确率不高问题,本文改进了Tri-Training算法的投票策略,并引入主动学习思想来进一步提高准确率。在关系抽取实验中,改进方法的识别准确率与传统Tri-Training算法相比具有很大的提升。最后,本文基于所提出方法,实现了一个基于文本数据的信息抽取与关联分析可视化原型系统。该系统可以将文本数据进行实体、关系抽取并布局展示,同时具备初步的关联分析和人机交互功能,以辅助用户分析决策。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景与意义
  • 1.2 国内外研究现状
  • 1.3 主要研究内容
  • 1.4 论文组织结构
  • 第二章 信息抽取技术研究
  • 2.1 信息抽取概述
  • 2.1.1 信息抽取任务
  • 2.1.2 信息抽取系统结构
  • 2.1.3 信息抽取系统评价
  • 2.2 命名实体识别
  • 2.2.1 知识工程方法
  • 2.2.2 统计模型方法
  • 2.3 实体关系抽取
  • 2.3.1 有监督关系抽取
  • 2.3.2 无监督关系抽取
  • 2.3.3 弱监督关系抽取
  • 2.4 本章小结
  • 第三章 基于主动学习与自学习的命名实体识别
  • 3.1 预备知识
  • 3.1.1 基于条件随机场的命名实体识别
  • 3.1.2 主动学习
  • 3.1.3 自学习
  • 3.2 主动学习与自学习结合的命名实体识别
  • 3.2.1 思想基础
  • 3.2.2 算法处理的具体流程
  • 3.3 实验结果和分析
  • 3.3.1 实验一
  • 3.3.2 实验二
  • 3.3.3 实验三
  • 3.3.4 实验四
  • 3.4 本章小结
  • 第四章 基于改进TRI-TRAINING算法的关系提取
  • 4.1 相关概念
  • 4.1.1 弱监督学习中的协同训练方法
  • 4.1.2 SVM分类器
  • 4.2 算法的思想和流程
  • 4.2.1 Tri-Training算法分析
  • 4.2.2 改进策略与算法流程
  • 4.3 实验与分析
  • 4.4 本章小结
  • 第五章 基于文本数据的信息抽取与关联分析可视化原型系统设计与实现
  • 5.1 图数据库及Neo4j简介
  • 5.2 文本数据关联可视化分析系统框架
  • 5.3 系统实现
  • 5.3.1 数据转换功能
  • 5.3.2 人机交互功能
  • 5.3.3 关联分析功能
  • 5.3.4 布局展示功能
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 研究工作和成果总结
  • 6.2 进一步的研究方向
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于文本的实体—关系抽取技术研究
    下载Doc文档

    猜你喜欢