基于语篇的中文命名实体识别研究

基于语篇的中文命名实体识别研究

论文摘要

命名实体识别是自然语言信息处理的一项基础工作。命名实体识别的研究,在自然语言信息处理的许多应用领域如信息抽取、自动分类、机器翻译、问答系统和信息检索等都具有重大的意义。国际上,很早就开始了命名实体识别技术的研究并取得了不错的成果。但是,由于中文本身的内在特点,使得命名实体识别问题成为中文信息处理中的一项艰巨的任务。为了解决基于句子中文命名实体识别研究的局限性,本文提出了一种基于语篇的中文命名实体识别算法,并从以下几个方面对基于语篇的中文命名实体识别问题进行了研究和探讨:首先,文本介绍了人名、地名和组织名三种主要的命名实体的相关语言学知识,并对命名实体识别的早期的规则方法和目前流行的机器学习方法进行了简要介绍。其次,提出了一个统计与规则相结合的中文命名实体识别算法。本文详细分析了中文命名实体的构成特点,提出了双层的CRFs模型进行机器学习方法,并采用规则库对CRFs标注结果进行校正,取得了不错的效果。再次,对语篇的基本概念和语篇理论进行了初步的学习和研究。在对语篇概念和基本理论有了一定的认识之后,重点对语篇的指代消解进行学习和研究。最后,提出了一种基于语篇的中文命名实体识别的算法,从整个语篇的角度对命名实体识别进行分析和研究。在系统架构过程中,本文采用了模块化的方法,分别有:句子级中文命名实体识别模块,指代消解模块,组织名缩略语识别模块、中文命名实体重现模块和评测模块等。实验结果表明,基于语篇的中文命名实体识别系统的识别效果相对于句子级的中文命名实体识别系统的识别效果有明显提高,在对2004年863中文命名实体评测语料的开放测试中,系统的识别的精确率、召回率和F-值分别是85.35%、80.62%和82.92%。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1自然语言处理
  • 1.2 研究背景和意义
  • 1.3 命名实体识别研究现状
  • 1.3.1 国内外的研究机构
  • 1.3.2 近年来的命名实体系统评测会议介绍
  • 1.4 论文的研究工作
  • 1.5 论文结构组织
  • 第二章 命名实体识别的基本原理和方法
  • 2.1 基本语言知识
  • 2.1.1 命名实体的特点
  • 2.1.2 命名实体识别的难点
  • 2.2 早期的规则方法
  • 2.3 机器学习的方法
  • 2.3.1 MEM
  • 2.3.2 CRFs
  • 2.4 本章小结
  • 第三章 基于统计与规则的中文命名实体识别
  • 3.1 CRFs相关理论
  • 3.1.1 独立假设(Independence Assumption)
  • 3.1.2 标记偏差(Label Dias)
  • 3.1.3 条件随机场(CRFs)
  • 3.2 CRFs工具的选用
  • 3.3 特征选择
  • 3.3.1 人名
  • 3.3.2 地名
  • 3.3.3 组织名
  • 3.4 规则库构造
  • 3.5 算法描述
  • 3.6 实验及结果
  • 3.6.1 实验设计
  • 3.6.2 实验结果及分析
  • 3.7 本章小结
  • 第四章 语篇知识介绍
  • 4.1 基本概念
  • 4.2 语篇理论介绍
  • 4.2.1 语篇类型
  • 4.2.2 语篇的衔接
  • 4.3 指代消解
  • 4.3.1 指代消解的定义
  • 4.3.2 指代消解中的常用特征
  • 4.3.3 指代消解的基本原理和方法
  • 4.4 本章小结
  • 第五章 基于语篇的中文命名实体识别研究
  • 5.1 问题提出
  • 5.2 系统实现
  • 5.2.1 句子级中文命名实体识别模块
  • 5.2.2 语篇指代消解模块
  • 5.2.3 组织机构名缩略语识别模块
  • 5.2.4 命名实体重现识别模块
  • 5.3 实验设计
  • 5.3.1 实验语料
  • 5.3.2 评测标准
  • 5.4 实验结果及分析
  • 5.4.1 实验结果
  • 5.4.2 结果分析
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 致谢
  • 相关论文文献

    • [1].融入语言模型和注意力机制的临床电子病历命名实体识别[J]. 计算机科学 2020(03)
    • [2].特定领域的命名实体识别方法的研究[J]. 电脑知识与技术 2020(08)
    • [3].基于迁移表示学习的军事命名实体识别[J]. 指挥信息系统与技术 2020(02)
    • [4].多神经网络协作的军事领域命名实体识别[J]. 清华大学学报(自然科学版) 2020(08)
    • [5].在线中文命名实体识别平台研究[J]. 江苏科技信息 2020(15)
    • [6].基于机器阅读理解的中文命名实体识别方法[J]. 模式识别与人工智能 2020(07)
    • [7].命名实体识别研究综述[J]. 情报学报 2018(03)
    • [8].面向中文微博命名实体识别的对比研究[J]. 湖北民族学院学报(自然科学版) 2017(01)
    • [9].基于词典匹配的蒙古文命名实体识别研究[J]. 中央民族大学学报(哲学社会科学版) 2017(03)
    • [10].中文在线健康社区中的医疗命名实体识别方法研究[J]. 信息系统学报 2017(02)
    • [11].桥梁检测领域命名实体识别[J]. 数字技术与应用 2020(01)
    • [12].基于迁移学习的维吾尔语命名实体识别[J]. 东北师大学报(自然科学版) 2020(02)
    • [13].用于社交媒体的中文命名实体识别[J]. 中文信息学报 2020(08)
    • [14].一种面向时政新闻的命名实体识别方法[J]. 北京信息科技大学学报(自然科学版) 2018(06)
    • [15].命名实体识别方法研究进展[J]. 现代计算机(专业版) 2018(35)
    • [16].基于多注意力的中文命名实体识别[J]. 信息与电脑(理论版) 2019(09)
    • [17].中文命名实体识别模型对比分析[J]. 现代计算机 2019(14)
    • [18].基于注意力机制的命名实体识别模型研究——以军事文本为例[J]. 计算机科学 2019(S1)
    • [19].基于深度学习的军事命名实体识别方法[J]. 装甲兵工程学院学报 2018(04)
    • [20].基于深度学习的医疗命名实体识别[J]. 计算技术与自动化 2017(01)
    • [21].命名实体识别综述[J]. 现代计算机(专业版) 2016(03)
    • [22].基于本体的产品命名实体识别研究[J]. 武汉理工大学学报(信息与管理工程版) 2011(06)
    • [23].藏语命名实体识别研究[J]. 西北民族大学学报(自然科学版) 2010(03)
    • [24].基于条件随机域的生物命名实体识别[J]. 计算机工程 2009(22)
    • [25].基于最大熵模型的中文命名实体识别研究[J]. 科技信息(学术研究) 2008(30)
    • [26].基于准循环神经网络的中文命名实体识别[J]. 计算机工程与设计 2020(07)
    • [27].融合空洞卷积神经网络与层次注意力机制的中文命名实体识别[J]. 中文信息学报 2020(08)
    • [28].反馈式K近邻语义迁移学习的领域命名实体识别[J]. 智能系统学报 2019(04)
    • [29].基于深度学习的作战文书命名实体识别[J]. 指挥控制与仿真 2019(04)
    • [30].基于Attention-BiLSTM的中文命名实体识别[J]. 湖南工业大学学报 2019(05)

    标签:;  ;  ;  

    基于语篇的中文命名实体识别研究
    下载Doc文档

    猜你喜欢