中文自动分词关键技术研究与实现

论文摘要

近年来,随着计算机的普及与信息化的发展,中文信息处理技术的应用日益广泛,中文自动分词技术是中文信息处理的基础,已应用在文本校对、机器翻译、文本分类、自动摘要、信息检索、计算机人机接口等诸多领域。本文在对传统的中文自动分词系统及主要分词技术研究的基础上,做了多方改进,完成了一个实用、高效的分词系统原型。本课题主要对中文自动分词关键技术:自动分词方法、歧义字段的处理方法以及命名实体的计算机自动识别方法等技术进行了分析和研究。本文所做的主要工作如下:1.针对易引起歧义的特征词,提出了一种对特征词的特殊处理方法,对每个特征词创建了相应的规则,构造了针对特征词的规则库,利用特征词的规则库进行初步切分,这样不但提高了切分速度,且解决了部分歧义问题。2.针对传统的正向最大匹配算法的缺陷,对该算法进行了改进,在匹配的过程中根据已经扫描过的词来确定是否继续匹配下去,动态的确定要匹配的长度,这样不但减少了平均匹配操作的次数,不受词长的限制,充分体现了“长词优先”的原则,且提高了切分的速度。3.针对歧义的处理,采用了多步分层消除歧义技术,首先在粗分割模块利用特征词消除了一部分歧义,还存在歧义的字段在最后的歧义消除模块利用长词优先及右规约技术进行消歧,使切分结果正确率进一步提高。4.词典的设计方面,为了适合切分算法,因算法要频繁查询一个字串是否为一个词的前缀,因此把词典中的词划分为两类:真正意义上的词与词的前缀,这样更有利于切分过程的查询,进一步提高了切分的速度。5.对文本中的出现的命名实体如中外人名、地名、机构名、时间和数字等未登录词,分析它们的特点,设计了相应的识别方法。经过大量的实验表明:本文实现的中文自动分词原型具有较高的切分速度,平均达到了195,601汉字/秒,同时在切分的准确率方面达到了98.08%,可见系统有较好的性能。

论文目录

中文摘要

ABSTRACT

第一章绪论

1.1 研究的背景和意义

1.2 研究的现状

1.3 本文的研究内容

1.4 本文的组织结构

第二章传统中文自动分词方法分析比较

2.1 汉语分词的难点

2.1.1 分词标准规范化问题

2.1.2 歧义词的处理问题

2.1.3 命名实体的识别问题

2.2 传统的分词方法简介

2.2.1 机械性分词方法

2.2.2 理解性分词方法

2.2.3 统计性分词方法

2.2.4 三种分词方法比较

2.3 自动分词模型

2.3.1 自动分词的理论模型

2.3.2 自动分词的评价标准

2.4 本章小结

第三章切分处理技术分析研究

3.1 正向最大匹配切分算法

3.2 逆向最大匹配切分算法

3.3 自适应的正向MM切分算法

3.4 算法分析比较

3.5 本章小结

第四章歧义分析与消岐技术研究

4.1 歧义字段形成的原因

4.1.1 中文文本书写格式

4.1.2 汉语语素的构词能力

4.1.3 汉语词的同形词问题

4.1.4 人名地名的大量存在

4.2 歧义的类型

4.3 交集型歧义字段处理技术

4.3.1 交集型歧义字段的统计分析

4.3.2 交集型歧义字段的切分方法

4.4 组合型歧义字段处理技术

4.4.1 句法歧义字段处理

4.4.2 语义歧义字段处理

4.4.3 语用歧义字段处理

4.5 本章小结

第五章命名实体自动识别技术研究

5.1 中文人名识别技术

5.1.1 中文人名特点分析

5.1.2 中文人名识别方法

5.2 中文地名识别技术

5.2.1 中文地名资源

5.2.2 中文地名资源知识库的构造

5.2.3 中文地名规则库构造

5.2.4 中文地名识别技术

5.3 中文机构名的识别技术

5.3.1 机构名称的语法性质

5.3.2 机构名称的语义特性

5.3.3 机构名称的组织规律

5.3.4 机构名称的识别方法

5.4 外国人名、时间词和数词

5.5 本章小结

第六章中文自动分词系统原型实现

6.1 系统简介

6.2 预处理模块

6.3 粗切分模块

6.4 细切分模块

6.5 歧义消除模块

6.6 实验结果对比

6.7 本章小结

第七章全文总结与展望

7.1 本文讨论主要问题及创新

7.2 存在的问题及展望

参考文献

致谢

攻读硕士学位期间承担的科研任务及主要成果

中文自动分词关键技术研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢