论文摘要
信息抽取(Information Extraction)技术可以从非结构化数据中抽取人们感兴趣的实体、关系、事件等,形成结构化存储以供查询检索。命名实体识别和实体间关系抽取是信息抽取中两个非常重要的子任务,也是研究的热点问题。随着文本数据的爆炸式增长,如何使用丰富的未标注语料来提高信息抽取的性能成为一个迫切的问题,在这方面,以有监督为代表的传统方法表现不佳,采用弱监督和无监督方法进行处理成为当前的趋势。本文在深入研究总结前人研究成果的基础上,对弱监督的命名实体识别和关系抽取进行了改进,并取得了良好的效果。在命名实体识别方面,本文提出了SACRF(Self-training with Active learning based on CRF)方法,依据少量的初始训练语料和大量未标注数据,采用条件随机场作为基础分类器,使用自学习方法自动扩展未标注语料,并使用主动学习标注置信度低的样本。实验表明,该方法在自动扩展训练集、提高实体识别的准确率和召回率的同时,能够显著降低人工标注的工作量。在关系抽取方面,基于传统弱监督方法存在的噪声引入以及准确率不高问题,本文改进了Tri-Training算法的投票策略,并引入主动学习思想来进一步提高准确率。在关系抽取实验中,改进方法的识别准确率与传统Tri-Training算法相比具有很大的提升。最后,本文基于所提出方法,实现了一个基于文本数据的信息抽取与关联分析可视化原型系统。该系统可以将文本数据进行实体、关系抽取并布局展示,同时具备初步的关联分析和人机交互功能,以辅助用户分析决策。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题背景与意义1.2 国内外研究现状1.3 主要研究内容1.4 论文组织结构第二章 信息抽取技术研究2.1 信息抽取概述2.1.1 信息抽取任务2.1.2 信息抽取系统结构2.1.3 信息抽取系统评价2.2 命名实体识别2.2.1 知识工程方法2.2.2 统计模型方法2.3 实体关系抽取2.3.1 有监督关系抽取2.3.2 无监督关系抽取2.3.3 弱监督关系抽取2.4 本章小结第三章 基于主动学习与自学习的命名实体识别3.1 预备知识3.1.1 基于条件随机场的命名实体识别3.1.2 主动学习3.1.3 自学习3.2 主动学习与自学习结合的命名实体识别3.2.1 思想基础3.2.2 算法处理的具体流程3.3 实验结果和分析3.3.1 实验一3.3.2 实验二3.3.3 实验三3.3.4 实验四3.4 本章小结第四章 基于改进TRI-TRAINING算法的关系提取4.1 相关概念4.1.1 弱监督学习中的协同训练方法4.1.2 SVM分类器4.2 算法的思想和流程4.2.1 Tri-Training算法分析4.2.2 改进策略与算法流程4.3 实验与分析4.4 本章小结第五章 基于文本数据的信息抽取与关联分析可视化原型系统设计与实现5.1 图数据库及Neo4j简介5.2 文本数据关联可视化分析系统框架5.3 系统实现5.3.1 数据转换功能5.3.2 人机交互功能5.3.3 关联分析功能5.3.4 布局展示功能5.4 本章小结第六章 总结与展望6.1 研究工作和成果总结6.2 进一步的研究方向致谢参考文献作者在学期间取得的学术成果
相关论文文献
标签:信息抽取论文; 命名实体识别论文; 关系抽取论文; 弱监督学习论文; 自学习论文; 主动学习论文;