中文机构名识别的研究

中文机构名识别的研究

论文摘要

中文命名实体识别是中文信息处理任务的前提和基础,其中机构名占有相当大的比重,而且是最难识别的一部分,其识别精度还远远达不到实际应用的需要。本文详细研究了中文机构名的识别方法,并实现了一个有效的中文机构名识别系统。本文将中文机构名分为简单机构名和复杂机构名,其中简单机构名仅由一个词组成,结构简单,而复杂机构名则由多个词组成,结构相对复杂.根据两类机构名不同的结构特点采用不同的方法进行识别。复杂机构名中经常嵌套包含简单机构名,因此采用一个双层模型进行识别。首先在低层采用条件随机场模型(Conditional Random Fields,CRF)识别简单机构名,CRF可以使用更复杂的特征进行训练和推理,它不但能够充分利用上下文信息作为特征,还可以任意添加其他的外部特征,是目前最优秀的序列标注模型之一。实验证明,采用CRF识别简单机构名能够获得较好的性能;然后将低层的识别结果传至高层,辅助进行复杂机构名的识别,最后将两层的识别结果进行合并。本文采用两种方法识别复杂机构名;一种是支持向量机(Support Vector Machine,SVM)和CRF相结合的方法。即根据复杂机构名的结构特点,将识别分为右边界识别和前部标注,对文本中出现在特征词表中的词,采用SVM判断其是否是机构名的右边界,对确定为右边界的词向前采用CRF进行标注,也就是寻找机构名左边界的过程。在前部标注的过程中加入了候选词的策略,在一定程度上提高了识别精度。另一种是CRF和可信度模型相结合的方法。首先建立特征词可信度模型和前部词可信度模型,然后针对文本中的每个词分别计算其可信度的大小,并将可信度信息加入到CRF中进行学习,最终获得识别模型。最后对机构名简称和兼类机构名进行详细的分析。该类机构名的识别涉及到语义层次,单纯采用统计方法无法有效的进行识别,本文根据它们不同的结构特点,制定了有效的规则进行初步的识别。实验证明本文的识别方法是有效的,针对北大版语料的开式精确率、召回率和F值分别为94.83%,95.02%和94.93%;针对微软版语料的开式精确率、召回率和F值分别为93.24%,82.39%和87.48%。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景和意义
  • 1.2 中文机构名识别的研究现状
  • 1.3 中文机构名识别的特点和难点
  • 1.4 本文的工作
  • 1.4.1 相关概念
  • 1.4.2 具体工作
  • 2 相关统计模型
  • 2.1 支持向量机模型(SVM)
  • 2.1.1 最优分类超平面
  • 2.1.2 非线性SVM及核函数
  • 2.1.3 SVM学习算法
  • 2.2 隐马尔可夫模型(HMM)
  • 2.3 最大熵马尔可夫模型(MEMM)
  • 2.4 条件随机场模型(CRF)
  • 2.4.1 CRF的原理
  • 2.4.2 CRF的参数估计
  • 2.4.3 CRF的优势
  • 3 中文机构名识别模型
  • 3.1 模型描述
  • 3.1.1 识别所需的资源
  • 3.1.2 标记集的选择
  • 3.1.3 标记粒度的选择
  • 3.1.4 识别流程
  • 3.2 基于CRF的简单机构名识别
  • 3.2.1 特征模板
  • 3.2.2 特征选择
  • 3.3 SVM和CRF相结合的复杂机构名识别
  • 3.3.1 右边界识别
  • 3.3.2 前部标注
  • 3.4 CRF和可信度相结合的复杂机构名识别
  • 3.4.1 可信度模型
  • 3.4.2 特征模板
  • 4 简称及兼类机构名的研究
  • 4.1 机构名简称识别的研究
  • 4.1.1 机构名简称的分析
  • 4.1.2 机构名简称的识别
  • 4.2 兼类机构名的识别
  • 4.3 规则修正
  • 5 实验结果与分析
  • 5.1 评价标准与语料
  • 5.2 实验设计与结果分析
  • 5.2.1 简单机构名识别
  • 5.2.2 不同标记集的识别结果
  • 5.2.3 基于单层CRF的机构名识别
  • 5.2.4 基于双层CRF的机构名识别
  • 5.2.5 SVM和CRF相结合的机构名识别
  • 5.2.6 CRF和可信度相结合的机构名识别
  • 5.2.7 复杂机构名识别方法的比较
  • 5.2.8 后续处理
  • 5.3 正确结果举例与错误结果分析
  • 5.3.1 正确结果举例
  • 5.3.2 错误结果举例与分析
  • 结论
  • 参考文献
  • 附录A 北大2003词性标注集
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].基于构成模式的部队机构名识别[J]. 现代计算机(专业版) 2013(34)
    • [2].基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法[J]. 现代图书情报技术 2016(12)
    • [3].基于规则的机构名规范化研究[J]. 现代图书情报技术 2015(06)
    • [4].基于统计的中文机构名实体识别的研究[J]. 佳木斯大学学报(自然科学版) 2010(03)
    • [5].基于统计的中文机构名自动识别[J]. 四川大学学报(自然科学版) 2009(03)
    • [6].基于支持向量机方法的中文组织机构名的识别[J]. 计算机应用研究 2008(02)
    • [7].基于网页信息和分词的中文机构名全称和简称提取方法[J]. 计算机应用研究 2017(04)
    • [8].采用上下文特征匹配的中文机构名简称识别[J]. 小型微型计算机系统 2015(07)
    • [9].一种基于词频统计的组织机构名识别方法[J]. 计算机应用研究 2013(07)
    • [10].基于条件随机场的中文组织机构名识别研究[J]. 沈阳航空工业学院学报 2009(01)
    • [11].基于模板匹配的中文机构名识别[J]. 信息技术 2008(06)
    • [12].基于语法语义知识的维吾尔文机构名识别[J]. 计算机工程与设计 2014(08)
    • [13].中文组织机构名命名规范化问题刍议[J]. 人文丛刊 2011(00)
    • [14].基于编辑距离的中文机构名简称检索方法研究[J]. 内蒙古科技与经济 2010(07)
    • [15].结合多特征的支持向量机中文组织机构名识别模型[J]. 现代计算机(专业版) 2010(07)
    • [16].基于最大熵的中文组织机构名识别模型[J]. 计算机与数字工程 2010(12)
    • [17].古代的环保[J]. 少年月刊 2015(10)
    • [18].国际或区域组织机构名的简称及其翻译浅析[J]. 邢台学院学报 2012(03)
    • [19].基于分词信息的中文机构名简称自动生成方法[J]. 计算机应用与软件 2014(04)
    • [20].基于条件随机场的维吾尔文机构名识别[J]. 计算机工程与设计 2019(01)
    • [21].藏文机构名的识别算法研究[J]. 电子技术与软件工程 2016(14)
    • [22].寻路算法在中文金融机构名匹配中的应用[J]. 计算技术与自动化 2011(02)
    • [23].美国主流媒体对中国公司机构名的翻译策略——以《时代周刊》网络版涉华报道为例[J]. 齐齐哈尔大学学报(哲学社会科学版) 2015(10)
    • [24].基于Tri-training半监督学习的中文组织机构名识别[J]. 计算机应用研究 2010(01)
    • [25].用户查询日志中的中文机构名识别[J]. 现代图书情报技术 2014(01)
    • [26].基于编辑距离的中文组织机构名简称-全称匹配算法[J]. 山东大学学报(理学版) 2012(05)
    • [27].基于N-gram语言模型的哈萨克文机构名识别[J]. 计算机工程与应用 2010(31)
    • [28].集体三资管理“谁来做”问题凸显[J]. 农村经营管理 2017(12)
    • [29].汉语机构名拼音拼写问题研究[J]. 青年文学家 2012(27)
    • [30].基于SVM和CRF的双层模型中文机构名识别[J]. 大连理工大学学报 2010(05)

    标签:;  ;  ;  ;  ;  

    中文机构名识别的研究
    下载Doc文档

    猜你喜欢