基于Stacking框架的命名实体识别

基于Stacking框架的命名实体识别

论文摘要

中文命名实体识别是指识别出文本中特定的实体。它是机器翻译、文本分类、信息检索和自动文摘、自动问答等多种自然语言处理技术的基础。作为信息抽取的基本任务,为了促进其他技术和应用的发展,命名实体识别一直是自然语言处理的研究热点之一。因此,研究中文命名实体的识别技术是很有意义,也是非常重要的。针对现代汉语文本的特点,本文主要研究以人名、地名和机构名的识别为核心内容的中文命名实体识别问题。我们以SIGHAN竞赛的命名实体定义和评测标准为依据,利用基于Stacking框架的组合分类器来进行命名实体识别,结合局部特征和全局特征,对中文命名实体识别进行了实验。另外,在结合多种特征的同时,本文又加入了词列表信息来进一步提高实验系统的性能。在本文中,我们详细介绍了Stacking框架的定义、模型结构、训练方法以及模型算法的选择等,提出了适合于各类中文命名实体的特征模板。在特征选择过程中为了不影响命名实体识别的精度并使其保证一定的独立性,我们并不选用分词和词性标注作为特征加入,而以字为单位进行特征选择。在应用了实体所在句子内部的局部特征基础上,利用了相同实体在同一语料中的其他共现来抽取有用的全局特征。本文将以上方法结合起来,进行中文命名实体识别,通过实验进行验证,取得了较好的效果,证明了其有效性。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究的目的与意义
  • 1.2 命名实体研究综述
  • 1.2.1 命名实体定义
  • 1.2.2 命名实体识别
  • 1.2.4 中文命名实体识别难点
  • 1.3 论文的主要工作
  • 1.4 本文的结构组织
  • 2 Stacking框架理论
  • 2.1 多分类器组合
  • 2.2 投票方法
  • 2.3 Stacking框架原理
  • 2.3.1 分类器组合过程
  • 2.3.2 未知数据分类过程
  • 2.4 Stacking框架在本文中的应用
  • 3 特征集描述
  • 3.1 局部基本特征
  • 3.1.1 基于字特征
  • 3.1.2 首字与尾字
  • 3.1.3 前接词与后接词
  • 3.1.4 基于位置特征
  • 3.1.5 数字、字母与特殊符号
  • 3.2 全局特征
  • 3.2.1 实体类别统计词典
  • 3.2.2 实体词缀统计词典
  • 3.2.3 实体尾字统计词典
  • 3.2.4 实体前导词统计词典
  • 3.3 外部字典资源
  • 4 基于最大熵隐马尔可夫的命名实体识别
  • 4.1 最大熵马尔可夫模型
  • 4.1.1 隐马尔可夫模型介绍
  • 4.1.2 最大熵模型
  • 4.1.3 最大熵马尔可夫模型
  • 4.2 实验语料和评测指标
  • 4.2.1 实验语料
  • 4.2.2 实验的评测指标
  • 4.3 实验的框架及设置
  • 4.4 特征选择
  • 4.5 实验结果
  • 5 基于条件随机域的命名实体识别
  • 5.1 条件随机域模型
  • 5.1.1 CRF定义
  • 5.1.2 标记偏置问题
  • 5.1.3 模型的数学表示
  • 5.2 实验语料和评测指标
  • 5.2.1 实验语料
  • 5.2.2 实验的评测指标
  • 5.3 实验的框架及设置
  • 5.4 特征选择
  • 5.5 实验结果
  • 6 基于Stacking的命名实体识别
  • 6.1 支持向量机
  • 6.1.1 广义最优分类面
  • 6.1.2 支持向量机
  • 6.1.3 核函数
  • 6.1.4 核函数主要成分分析
  • 6.2 实验语枓
  • 6.3 实验结构设置
  • 6.4 SVM-NER的特征选择
  • 6.5 实验结果及分析
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].融入语言模型和注意力机制的临床电子病历命名实体识别[J]. 计算机科学 2020(03)
    • [2].特定领域的命名实体识别方法的研究[J]. 电脑知识与技术 2020(08)
    • [3].基于迁移表示学习的军事命名实体识别[J]. 指挥信息系统与技术 2020(02)
    • [4].多神经网络协作的军事领域命名实体识别[J]. 清华大学学报(自然科学版) 2020(08)
    • [5].在线中文命名实体识别平台研究[J]. 江苏科技信息 2020(15)
    • [6].基于机器阅读理解的中文命名实体识别方法[J]. 模式识别与人工智能 2020(07)
    • [7].命名实体识别研究综述[J]. 情报学报 2018(03)
    • [8].面向中文微博命名实体识别的对比研究[J]. 湖北民族学院学报(自然科学版) 2017(01)
    • [9].基于词典匹配的蒙古文命名实体识别研究[J]. 中央民族大学学报(哲学社会科学版) 2017(03)
    • [10].中文在线健康社区中的医疗命名实体识别方法研究[J]. 信息系统学报 2017(02)
    • [11].桥梁检测领域命名实体识别[J]. 数字技术与应用 2020(01)
    • [12].基于迁移学习的维吾尔语命名实体识别[J]. 东北师大学报(自然科学版) 2020(02)
    • [13].用于社交媒体的中文命名实体识别[J]. 中文信息学报 2020(08)
    • [14].一种面向时政新闻的命名实体识别方法[J]. 北京信息科技大学学报(自然科学版) 2018(06)
    • [15].命名实体识别方法研究进展[J]. 现代计算机(专业版) 2018(35)
    • [16].基于多注意力的中文命名实体识别[J]. 信息与电脑(理论版) 2019(09)
    • [17].中文命名实体识别模型对比分析[J]. 现代计算机 2019(14)
    • [18].基于注意力机制的命名实体识别模型研究——以军事文本为例[J]. 计算机科学 2019(S1)
    • [19].基于深度学习的军事命名实体识别方法[J]. 装甲兵工程学院学报 2018(04)
    • [20].基于深度学习的医疗命名实体识别[J]. 计算技术与自动化 2017(01)
    • [21].命名实体识别综述[J]. 现代计算机(专业版) 2016(03)
    • [22].基于本体的产品命名实体识别研究[J]. 武汉理工大学学报(信息与管理工程版) 2011(06)
    • [23].藏语命名实体识别研究[J]. 西北民族大学学报(自然科学版) 2010(03)
    • [24].基于条件随机域的生物命名实体识别[J]. 计算机工程 2009(22)
    • [25].基于最大熵模型的中文命名实体识别研究[J]. 科技信息(学术研究) 2008(30)
    • [26].基于准循环神经网络的中文命名实体识别[J]. 计算机工程与设计 2020(07)
    • [27].融合空洞卷积神经网络与层次注意力机制的中文命名实体识别[J]. 中文信息学报 2020(08)
    • [28].反馈式K近邻语义迁移学习的领域命名实体识别[J]. 智能系统学报 2019(04)
    • [29].基于深度学习的作战文书命名实体识别[J]. 指挥控制与仿真 2019(04)
    • [30].基于Attention-BiLSTM的中文命名实体识别[J]. 湖南工业大学学报 2019(05)

    标签:;  ;  ;  ;  

    基于Stacking框架的命名实体识别
    下载Doc文档

    猜你喜欢