论文摘要
中文命名实体识别是中文信息处理任务的前提和基础,其中机构名占有相当大的比重,而且是最难识别的一部分,其识别精度还远远达不到实际应用的需要。本文详细研究了中文机构名的识别方法,并实现了一个有效的中文机构名识别系统。本文将中文机构名分为简单机构名和复杂机构名,其中简单机构名仅由一个词组成,结构简单,而复杂机构名则由多个词组成,结构相对复杂.根据两类机构名不同的结构特点采用不同的方法进行识别。复杂机构名中经常嵌套包含简单机构名,因此采用一个双层模型进行识别。首先在低层采用条件随机场模型(Conditional Random Fields,CRF)识别简单机构名,CRF可以使用更复杂的特征进行训练和推理,它不但能够充分利用上下文信息作为特征,还可以任意添加其他的外部特征,是目前最优秀的序列标注模型之一。实验证明,采用CRF识别简单机构名能够获得较好的性能;然后将低层的识别结果传至高层,辅助进行复杂机构名的识别,最后将两层的识别结果进行合并。本文采用两种方法识别复杂机构名;一种是支持向量机(Support Vector Machine,SVM)和CRF相结合的方法。即根据复杂机构名的结构特点,将识别分为右边界识别和前部标注,对文本中出现在特征词表中的词,采用SVM判断其是否是机构名的右边界,对确定为右边界的词向前采用CRF进行标注,也就是寻找机构名左边界的过程。在前部标注的过程中加入了候选词的策略,在一定程度上提高了识别精度。另一种是CRF和可信度模型相结合的方法。首先建立特征词可信度模型和前部词可信度模型,然后针对文本中的每个词分别计算其可信度的大小,并将可信度信息加入到CRF中进行学习,最终获得识别模型。最后对机构名简称和兼类机构名进行详细的分析。该类机构名的识别涉及到语义层次,单纯采用统计方法无法有效的进行识别,本文根据它们不同的结构特点,制定了有效的规则进行初步的识别。实验证明本文的识别方法是有效的,针对北大版语料的开式精确率、召回率和F值分别为94.83%,95.02%和94.93%;针对微软版语料的开式精确率、召回率和F值分别为93.24%,82.39%和87.48%。
论文目录
相关论文文献
- [1].基于构成模式的部队机构名识别[J]. 现代计算机(专业版) 2013(34)
- [2].基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法[J]. 现代图书情报技术 2016(12)
- [3].基于规则的机构名规范化研究[J]. 现代图书情报技术 2015(06)
- [4].基于统计的中文机构名实体识别的研究[J]. 佳木斯大学学报(自然科学版) 2010(03)
- [5].基于统计的中文机构名自动识别[J]. 四川大学学报(自然科学版) 2009(03)
- [6].基于支持向量机方法的中文组织机构名的识别[J]. 计算机应用研究 2008(02)
- [7].基于网页信息和分词的中文机构名全称和简称提取方法[J]. 计算机应用研究 2017(04)
- [8].采用上下文特征匹配的中文机构名简称识别[J]. 小型微型计算机系统 2015(07)
- [9].一种基于词频统计的组织机构名识别方法[J]. 计算机应用研究 2013(07)
- [10].基于条件随机场的中文组织机构名识别研究[J]. 沈阳航空工业学院学报 2009(01)
- [11].基于模板匹配的中文机构名识别[J]. 信息技术 2008(06)
- [12].基于语法语义知识的维吾尔文机构名识别[J]. 计算机工程与设计 2014(08)
- [13].中文组织机构名命名规范化问题刍议[J]. 人文丛刊 2011(00)
- [14].基于编辑距离的中文机构名简称检索方法研究[J]. 内蒙古科技与经济 2010(07)
- [15].结合多特征的支持向量机中文组织机构名识别模型[J]. 现代计算机(专业版) 2010(07)
- [16].基于最大熵的中文组织机构名识别模型[J]. 计算机与数字工程 2010(12)
- [17].古代的环保[J]. 少年月刊 2015(10)
- [18].国际或区域组织机构名的简称及其翻译浅析[J]. 邢台学院学报 2012(03)
- [19].基于分词信息的中文机构名简称自动生成方法[J]. 计算机应用与软件 2014(04)
- [20].基于条件随机场的维吾尔文机构名识别[J]. 计算机工程与设计 2019(01)
- [21].藏文机构名的识别算法研究[J]. 电子技术与软件工程 2016(14)
- [22].寻路算法在中文金融机构名匹配中的应用[J]. 计算技术与自动化 2011(02)
- [23].美国主流媒体对中国公司机构名的翻译策略——以《时代周刊》网络版涉华报道为例[J]. 齐齐哈尔大学学报(哲学社会科学版) 2015(10)
- [24].基于Tri-training半监督学习的中文组织机构名识别[J]. 计算机应用研究 2010(01)
- [25].用户查询日志中的中文机构名识别[J]. 现代图书情报技术 2014(01)
- [26].基于编辑距离的中文组织机构名简称-全称匹配算法[J]. 山东大学学报(理学版) 2012(05)
- [27].基于N-gram语言模型的哈萨克文机构名识别[J]. 计算机工程与应用 2010(31)
- [28].集体三资管理“谁来做”问题凸显[J]. 农村经营管理 2017(12)
- [29].汉语机构名拼音拼写问题研究[J]. 青年文学家 2012(27)
- [30].基于SVM和CRF的双层模型中文机构名识别[J]. 大连理工大学学报 2010(05)