基于规则的Web文本信息抽取技术的研究

基于规则的Web文本信息抽取技术的研究

论文摘要

随着因特网技术的迅速发展,网上信息成几何级数增长,如何自动处理这些海量联机文本信息成为目前重要的研究课题。文本信息抽取是指从一段文本中抽取指定的信息(例如事件、事实),并将其形成结构化的数据填入数据库中供用户查询使用的过程。本文实现的是中文命名实体识别及关系抽取系统。命名实体识别是实体关系抽取的基础。实体关系抽取是信息抽取中的一个重要研究课题,其任务是寻找并判定实体对之间存在的特定关系。实体关系抽取作为一项基础性研究,对于信息检索、问答系统、信息过滤、自动文摘、机器翻译以及数字图书馆建设有重要的研究意义。当前实体关系抽取的主要技术有基于知识库的抽取方法、基于特征向量的机器学习方法、基于核函数的机器学习方法,基于模式的Bootstrapping方法。本文采用了隐马尔可夫模型(Hidden Markov Models,HMM)与具有优先规则提取相结合的方法进行中文命名实体识别。整个识别过程可以分为两个步骤,首先使用隐马尔可夫模型进行词性标注,然后利用具有优先级别的匹配规则对第一步的结果进行修正和转换。二者的有机结合使得系统性能有了很大的提高。采用两种基于特征向量的机器学习算法,Winnow和支持向量机(SVM),在ACE评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择,当选择每个实体的左右两个词为特征时,达到最好的抽取效果,Winnow和SVM算法的加权平均F-Score分别为73.08%和73.27%。可见在使用相同的特征向量,不同的学习算法进行实体关系的识别时,最终性能差别不大。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 国内外相关研究状况
  • 1.3 本文的研究工作
  • 1.4 本文的组织结构
  • 1.5 本章小结
  • 第二章 信息抽取知识概述
  • 2.1 信息抽取综述
  • 2.1.1 信息抽取的相关概念
  • 2.1.2 信息抽取的层次和类型
  • 2.1.3 信息抽取中的主要技术
  • 2.1.4 信息抽取的主要任务
  • 2.1.5 信息抽取系统的体系结构
  • 2.1.6 信息抽取的工作过程和衡量指标
  • 2.2 命名实体识别主要算法
  • 2.2.1 隐马尔可夫模型(Hidden Markov Models,HMM)
  • 2.2.2 最大熵模型(Maximum Entropy Models)
  • 2.2.3 条件随机场(Conditional Random Fields)
  • 2.3 本章小结
  • 第三章 中文命名实体识别及实体关系抽取的研究
  • 3.1 基于规则与统计的中文命名实体识别的研究
  • 3.1.1 基于HMM 的命名实体识别
  • 3.1.2 上下文相关的新词和人名识别
  • 3.1.3 匹配规则修正
  • 3.2 基于特征向量的实体关系抽取的研究
  • 3.2.1 基于特征向量的机器学习算法
  • 3.2.2 支持向量机(SVM)的基本理论
  • 3.2.3 在线学习Winnow 算法
  • 3.3 实体关系抽取的构造算法
  • 3.4 系统总体设计
  • 3.5 系统的模块设计
  • 3.5.1 中文命名实体识别模块
  • 3.5.2 中文实体关系抽取模块
  • 3.6 系统服务的实现
  • 3.6.1 客户端设计
  • 3.6.2 服务端设计
  • 3.6.3 系统部署
  • 3.7 本章小结
  • 第四章 系统测试及其结果分析
  • 4.1 实验评测指标
  • 4.2 实验数据及结果分析
  • 4.2.1 中文命名实体识别部分
  • 4.2.2 中文实体关系抽取部分
  • 4.3 本章小结
  • 第五章 结论和展望
  • 5.1 总结
  • 5.2 前景展望
  • 5.3 本章小结
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].融入语言模型和注意力机制的临床电子病历命名实体识别[J]. 计算机科学 2020(03)
    • [2].特定领域的命名实体识别方法的研究[J]. 电脑知识与技术 2020(08)
    • [3].基于迁移表示学习的军事命名实体识别[J]. 指挥信息系统与技术 2020(02)
    • [4].多神经网络协作的军事领域命名实体识别[J]. 清华大学学报(自然科学版) 2020(08)
    • [5].在线中文命名实体识别平台研究[J]. 江苏科技信息 2020(15)
    • [6].基于机器阅读理解的中文命名实体识别方法[J]. 模式识别与人工智能 2020(07)
    • [7].命名实体识别研究综述[J]. 情报学报 2018(03)
    • [8].面向中文微博命名实体识别的对比研究[J]. 湖北民族学院学报(自然科学版) 2017(01)
    • [9].基于词典匹配的蒙古文命名实体识别研究[J]. 中央民族大学学报(哲学社会科学版) 2017(03)
    • [10].中文在线健康社区中的医疗命名实体识别方法研究[J]. 信息系统学报 2017(02)
    • [11].桥梁检测领域命名实体识别[J]. 数字技术与应用 2020(01)
    • [12].基于迁移学习的维吾尔语命名实体识别[J]. 东北师大学报(自然科学版) 2020(02)
    • [13].用于社交媒体的中文命名实体识别[J]. 中文信息学报 2020(08)
    • [14].一种面向时政新闻的命名实体识别方法[J]. 北京信息科技大学学报(自然科学版) 2018(06)
    • [15].命名实体识别方法研究进展[J]. 现代计算机(专业版) 2018(35)
    • [16].基于多注意力的中文命名实体识别[J]. 信息与电脑(理论版) 2019(09)
    • [17].中文命名实体识别模型对比分析[J]. 现代计算机 2019(14)
    • [18].基于注意力机制的命名实体识别模型研究——以军事文本为例[J]. 计算机科学 2019(S1)
    • [19].基于深度学习的军事命名实体识别方法[J]. 装甲兵工程学院学报 2018(04)
    • [20].基于深度学习的医疗命名实体识别[J]. 计算技术与自动化 2017(01)
    • [21].命名实体识别综述[J]. 现代计算机(专业版) 2016(03)
    • [22].基于本体的产品命名实体识别研究[J]. 武汉理工大学学报(信息与管理工程版) 2011(06)
    • [23].藏语命名实体识别研究[J]. 西北民族大学学报(自然科学版) 2010(03)
    • [24].基于条件随机域的生物命名实体识别[J]. 计算机工程 2009(22)
    • [25].基于最大熵模型的中文命名实体识别研究[J]. 科技信息(学术研究) 2008(30)
    • [26].基于准循环神经网络的中文命名实体识别[J]. 计算机工程与设计 2020(07)
    • [27].融合空洞卷积神经网络与层次注意力机制的中文命名实体识别[J]. 中文信息学报 2020(08)
    • [28].反馈式K近邻语义迁移学习的领域命名实体识别[J]. 智能系统学报 2019(04)
    • [29].基于深度学习的作战文书命名实体识别[J]. 指挥控制与仿真 2019(04)
    • [30].基于Attention-BiLSTM的中文命名实体识别[J]. 湖南工业大学学报 2019(05)

    标签:;  ;  ;  ;  

    基于规则的Web文本信息抽取技术的研究
    下载Doc文档

    猜你喜欢