中文机构名识别的研究

论文摘要

中文命名实体识别是中文信息处理任务的前提和基础,其中机构名占有相当大的比重,而且是最难识别的一部分,其识别精度还远远达不到实际应用的需要。本文详细研究了中文机构名的识别方法,并实现了一个有效的中文机构名识别系统。本文将中文机构名分为简单机构名和复杂机构名,其中简单机构名仅由一个词组成,结构简单,而复杂机构名则由多个词组成,结构相对复杂.根据两类机构名不同的结构特点采用不同的方法进行识别。复杂机构名中经常嵌套包含简单机构名,因此采用一个双层模型进行识别。首先在低层采用条件随机场模型(Conditional Random Fields,CRF)识别简单机构名,CRF可以使用更复杂的特征进行训练和推理,它不但能够充分利用上下文信息作为特征,还可以任意添加其他的外部特征,是目前最优秀的序列标注模型之一。实验证明,采用CRF识别简单机构名能够获得较好的性能;然后将低层的识别结果传至高层,辅助进行复杂机构名的识别,最后将两层的识别结果进行合并。本文采用两种方法识别复杂机构名;一种是支持向量机(Support Vector Machine,SVM)和CRF相结合的方法。即根据复杂机构名的结构特点,将识别分为右边界识别和前部标注,对文本中出现在特征词表中的词,采用SVM判断其是否是机构名的右边界,对确定为右边界的词向前采用CRF进行标注,也就是寻找机构名左边界的过程。在前部标注的过程中加入了候选词的策略,在一定程度上提高了识别精度。另一种是CRF和可信度模型相结合的方法。首先建立特征词可信度模型和前部词可信度模型,然后针对文本中的每个词分别计算其可信度的大小,并将可信度信息加入到CRF中进行学习,最终获得识别模型。最后对机构名简称和兼类机构名进行详细的分析。该类机构名的识别涉及到语义层次,单纯采用统计方法无法有效的进行识别,本文根据它们不同的结构特点,制定了有效的规则进行初步的识别。实验证明本文的识别方法是有效的,针对北大版语料的开式精确率、召回率和F值分别为94.83%,95.02%和94.93%;针对微软版语料的开式精确率、召回率和F值分别为93.24%,82.39%和87.48%。

论文目录

摘要

Abstract

1 绪论

1.1 研究背景和意义

1.2 中文机构名识别的研究现状

1.3 中文机构名识别的特点和难点

1.4 本文的工作

1.4.1 相关概念

1.4.2 具体工作

2 相关统计模型

2.1 支持向量机模型（SVM）

2.1.1 最优分类超平面

2.1.2 非线性SVM及核函数

2.1.3 SVM学习算法

2.2 隐马尔可夫模型（HMM）

2.3 最大熵马尔可夫模型（MEMM）

2.4 条件随机场模型（CRF）

2.4.1 CRF的原理

2.4.2 CRF的参数估计

2.4.3 CRF的优势

3 中文机构名识别模型

3.1 模型描述

3.1.1 识别所需的资源

3.1.2 标记集的选择

3.1.3 标记粒度的选择

3.1.4 识别流程

3.2 基于CRF的简单机构名识别

3.2.1 特征模板

3.2.2 特征选择

3.3 SVM和CRF相结合的复杂机构名识别

3.3.1 右边界识别

3.3.2 前部标注

3.4 CRF和可信度相结合的复杂机构名识别

3.4.1 可信度模型

3.4.2 特征模板

4 简称及兼类机构名的研究

4.1 机构名简称识别的研究

4.1.1 机构名简称的分析

4.1.2 机构名简称的识别

4.2 兼类机构名的识别

4.3 规则修正

5 实验结果与分析

5.1 评价标准与语料

5.2 实验设计与结果分析

5.2.1 简单机构名识别

5.2.2 不同标记集的识别结果

5.2.3 基于单层CRF的机构名识别

5.2.4 基于双层CRF的机构名识别

5.2.5 SVM和CRF相结合的机构名识别

5.2.6 CRF和可信度相结合的机构名识别

5.2.7 复杂机构名识别方法的比较

5.2.8 后续处理

5.3 正确结果举例与错误结果分析

5.3.1 正确结果举例

5.3.2 错误结果举例与分析

结论

参考文献

附录A 北大2003词性标注集

攻读硕士学位期间发表学术论文情况

致谢

中文机构名识别的研究

论文摘要

论文目录

相关论文文献

猜你喜欢