基于最大熵模型的中文命名实体识别方法研究

论文摘要

命名实体识别是信息抽取的子任务,同时也是机器翻译、自动问答等多种自然语言处理技术的基础。由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其它中文自然语言处理技术和应用的发展,研究中文命名实体的识别技术是很有意义,也是非常重要的。本文利用最大熵模型(Maximum Entropy,ME)进行中文命名实体识别。尝试了在不同特征模板集下,命名实体识别的性能,深入研究了最大熵模型在中文命名实体识别中的特点,发现最大熵模型不能自动组合特征,模型性能很大程度上依赖于特征模板。因此,设计合理的特征模板是基于最大熵模型中文命名实体识别的关键。汉语中存在大量的隐含语义特征,可以帮助命名实体的识别,而最大熵模型的一个重要优点就是能融合不同粒度和不同层次的特征。针对这一特点,本文通过从语料库中抽取信息的方式,建立了大量的中文命名实体语义知识库。但是,由于语料库的规模有限,并且基于统计的方法普遍存在数据稀疏的问题,导致很多重要的知识不能被挖掘出来。为了解决这一问题,本文首次将语义扩展的思想应用在命名实体识别中,充分发挥了有限语言资源的作用,深度挖掘了有限资源的信息和知识,在不扩大语料库的前提下,挖掘出更丰富的知识,一定程度上缓解了数据稀疏问题。实验证明,相对于扩展前的知识库,利用扩展后的知识库,平均识别召回率提高了1.17%,F值提高了0.41%。特别是结构比较复杂的机构名识别准确率提高了0.24%,召回率提高了1.39%,F值提高了0.86%。

论文目录

摘要

Abstract

第1章绪论

1.1 课题背景与意义

1.2 命名实体识别技术路线和研究现状

1.2.1 基于规则的方法

1.2.2 基于统计的方法

1.2.3 中文命名实体识别方法

1.3 命名实体识别评测标准

1.4 中文命名实体识别难点和存在的问题

1.5 本文研究内容

第2章最大熵模型介绍

2.1 最大熵模型形式化描述

2.2 最大熵模型参数估计

2.2.1 GIS算法

2.2.2 IIS算法

2.3 最大熵模型优点

2.4 本章小结

第3章外部知识库建立

3.1 命名实体指示词库建立

3.1.1 命名实体指示词识别

3.1.2 命名实体指示词扩展

3.2 其他知识库建立

3.3 本章小结

第4章系统实现

4.1 命名实体标注集

4.2 最大熵模型特征

4.3 最大熵模型特征模板

4.3.1 原子特征模板

4.3.2 上下文组合特征模板

4.3.3 标记特征模板

4.3.4 外部语义知识特征模板

4.4 最大熵模型特征生成

4.5 最大熵模型特征选择

4.6 系统结构

4.7 实验及分析

4.7.1 实验数据准备

4.7.2 实验方案

4.7.3 实验结果及分析

4.8 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

基于最大熵模型的中文命名实体识别方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢