半监督的命名实体识别

半监督的命名实体识别

论文摘要

命名实体识别的指的是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类.命名实体识别的主要过程有实体边界的识别和确定实体的类型(如人名、地名或组织机构名).命名实体识别的研究主体是命名实体.命名实体通常由3个大类和7个小类组成.3大类是:实体类、时间类和数字类;7小类是:人名、地名、时间、日期、货币、机构名和百分比.由于实体数量众多、结构复杂、不同的文化背景会有较大差别等因素使得命名实体识别工作变的非常复杂.目前国内外主要采用的方法是基于规则的方法、基于统计的方法和两者相结合的方法.在解决命名实体识别的具体问题上又可以分为监督式的学习、半监督式的学习和无监督式的学习.本文中设计并实现了一个半监督的NER系统,该系统由训练子系统和标注子系统两部分组成.训练子系统从种子实体出发,经过搜索引擎检索、识别候选实体和噪音过滤等步骤生成确定类型的命名实体列表.噪音过滤技术的好坏直接影响命名实体识别的结果.不同的语言环境和不同的实体类型都会影响噪音过滤的算法,因而对于不同的文本不同的实体类型可以使用不同的噪音过滤方法来得到更好的结果.噪音过滤分为词汇级别的噪音过滤和语义的噪音过滤.词汇级别的噪音过滤中,本文提出并实现了基于词汇特征的噪音过滤、信息冗余的噪音过滤和两者结合的噪音过滤的方法.实验表明词汇特征和信息冗余相结合的过滤方法要优于任何一种方法单独进行过滤.在迭代的噪音过滤之后还提出并实现了统计语义的噪音过滤,但由于算法运行时间过长,不能加入到噪音过滤的迭代过程中,只能在确定最终的实体列表之前进行最后一次过滤.标注子系统根据生成的命名实体列表更新ICTCLAS的用户词典,对未标注的文档进行词性标注,提高其性能.

论文目录

  • 致谢
  • 摘要
  • ABSTRACT
  • 1 引言
  • 1.1 课题背景
  • 1.2 研究历史
  • 1.2.1 语言因素
  • 1.2.2 文本类型或领域因素
  • 1.2.3 实体类型因素
  • 1.2.4 后续内容
  • 1.3 相关应用
  • 2 命名实体识别相关技术
  • 2.1 研究主体和难点
  • 2.1.1 研究主体
  • 2.1.2 命名实体识别特点和难点
  • 2.2 国内外主要技术和方法
  • 2.2.1 基于规则的方法
  • 2.2.2 基于统计的方法
  • 2.2.3 规则和统计结合的方法
  • 2.3 解决命名实体识别问题的技术和算法
  • 2.3.1 监督式的学习
  • 2.3.2 半监督式的学习
  • 2.3.3 无监督式的学习
  • 3 半监督的NER系统
  • 3.1 训练子系统
  • 3.1.1 预处理
  • 3.1.2 通过种子检索网页
  • 3.1.3 构造种子特征矩阵
  • 3.1.4 根据特征矩阵选出有效特征
  • 3.1.5 选出候选实体
  • 3.1.6 噪音过滤器
  • 3.2 标注子系统
  • 3.3 系统问题分析
  • 3.3.1 训练类中的噪音问题
  • 3.3.2 正例负例的平衡问题
  • 3.3.3 剩余类噪音问题
  • 4 噪音过滤技术
  • 4.1 生成命名实体列表
  • 4.2 基于词汇特征的噪音过滤
  • 4.2.1 词汇特征相关噪音过滤
  • 4.2.2 平衡正例数和候选实体个数
  • 4.2.3 特征值的计算和阈值设定
  • 4.3 信息冗余的噪音过滤
  • 4.4 噪音过滤方法的结合
  • 4.5 统计语义噪音过滤
  • 4.6 结论
  • 5 ICTCLAS上的应用
  • 5.1 ICTCLAS简介
  • 5.2 ICTCLAS作原理
  • 5.2.1 原子切分
  • 5.2.2 初次切分
  • 5.2.3 N最短路径
  • 5.2.4 用户词典
  • 6 实验结果
  • 6.1 影响噪音过滤性能的两个因素
  • 6.2 实验数据分析
  • 6.2.1 词汇特征噪音过滤实验结果
  • 6.2.2 信息冗余噪音过滤实验结果
  • 6.2.3 两种噪音过滤方法结合实验结果
  • 6.2.4 在ICTCLAS上有应用结果
  • 6.3 实验结果分析
  • 7 结论
  • 7.1 本文工作总结
  • 7.2 进一步工作
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 相关论文文献

    • [1].融入语言模型和注意力机制的临床电子病历命名实体识别[J]. 计算机科学 2020(03)
    • [2].特定领域的命名实体识别方法的研究[J]. 电脑知识与技术 2020(08)
    • [3].基于迁移表示学习的军事命名实体识别[J]. 指挥信息系统与技术 2020(02)
    • [4].多神经网络协作的军事领域命名实体识别[J]. 清华大学学报(自然科学版) 2020(08)
    • [5].在线中文命名实体识别平台研究[J]. 江苏科技信息 2020(15)
    • [6].基于机器阅读理解的中文命名实体识别方法[J]. 模式识别与人工智能 2020(07)
    • [7].命名实体识别研究综述[J]. 情报学报 2018(03)
    • [8].面向中文微博命名实体识别的对比研究[J]. 湖北民族学院学报(自然科学版) 2017(01)
    • [9].基于词典匹配的蒙古文命名实体识别研究[J]. 中央民族大学学报(哲学社会科学版) 2017(03)
    • [10].中文在线健康社区中的医疗命名实体识别方法研究[J]. 信息系统学报 2017(02)
    • [11].桥梁检测领域命名实体识别[J]. 数字技术与应用 2020(01)
    • [12].基于迁移学习的维吾尔语命名实体识别[J]. 东北师大学报(自然科学版) 2020(02)
    • [13].用于社交媒体的中文命名实体识别[J]. 中文信息学报 2020(08)
    • [14].一种面向时政新闻的命名实体识别方法[J]. 北京信息科技大学学报(自然科学版) 2018(06)
    • [15].命名实体识别方法研究进展[J]. 现代计算机(专业版) 2018(35)
    • [16].基于多注意力的中文命名实体识别[J]. 信息与电脑(理论版) 2019(09)
    • [17].中文命名实体识别模型对比分析[J]. 现代计算机 2019(14)
    • [18].基于注意力机制的命名实体识别模型研究——以军事文本为例[J]. 计算机科学 2019(S1)
    • [19].基于深度学习的军事命名实体识别方法[J]. 装甲兵工程学院学报 2018(04)
    • [20].基于深度学习的医疗命名实体识别[J]. 计算技术与自动化 2017(01)
    • [21].命名实体识别综述[J]. 现代计算机(专业版) 2016(03)
    • [22].基于深度学习的中文命名实体识别研究[J]. 成都信息工程大学学报 2020(03)
    • [23].基于本体的产品命名实体识别研究[J]. 武汉理工大学学报(信息与管理工程版) 2011(06)
    • [24].藏语命名实体识别研究[J]. 西北民族大学学报(自然科学版) 2010(03)
    • [25].基于条件随机域的生物命名实体识别[J]. 计算机工程 2009(22)
    • [26].基于最大熵模型的中文命名实体识别研究[J]. 科技信息(学术研究) 2008(30)
    • [27].基于准循环神经网络的中文命名实体识别[J]. 计算机工程与设计 2020(07)
    • [28].融合空洞卷积神经网络与层次注意力机制的中文命名实体识别[J]. 中文信息学报 2020(08)
    • [29].反馈式K近邻语义迁移学习的领域命名实体识别[J]. 智能系统学报 2019(04)
    • [30].基于深度学习的作战文书命名实体识别[J]. 指挥控制与仿真 2019(04)

    标签:;  ;  ;  

    半监督的命名实体识别
    下载Doc文档

    猜你喜欢