现代汉语自动分词研究及几个算法的实现

论文摘要

随着中国正在向信息化社会迅速前进,其突出特征是Internet上中文网页的急剧增加和中文电子出版物,中文数字图书馆的迅速普及。以及受限文本为主要对象的中文自然语言处理研究于是也水涨船高,重要性日益显著。而汉语自动分词是任何中文处理系统都难以回避的第一道“工序”,其作用是怎么估计都不会过分。只有逾越这个障碍,中文处理系统才称得上初步打上了“智能”的印记,构建于词平面的各种后续语言分析手段才有展示身手的舞台。否则,系统便只能被束缚在字平面上,成不了太大气候。本论文正是针对上述问题,讨论了现代汉语自动分词的现实性、必要性和可行性。并介绍了现代汉语自动分词在软件中的应用和理论中的应用。详细讨论并实现了目前常用的现代汉语分词算法:最大匹配法、逆向扫描算法、最大概率法和中文姓名的识别算法。为了便于分析分词后的数据我设计了一个通用平台可将以上各种算法集合一起。通过这个平台,可以很方便的将新的分词算法挂上去,并了解整个分词的流程。为以后的研究提供了方便。通过对结果的分析,可以了解了各种分词算法的优缺点,分析了分词结果的各种歧义现象。为现代汉语自动分词算法的应用提供了很好的借鉴意义。

论文目录

摘要

ABSTRACT

第一章引言

1.1 课题来源及本文工作

1.2 现代汉语自动分词的现实性

1.3 现代汉语自动分词的必要性

1.4 现代汉语自动分词在软件中的应用

1.4.1 文本自动较对

1.4.2 简体/繁体自动转换

1.4.3 智能选词

1.4.4 全文检索系统

1.5 现代汉语自动分词在理论中的应用

1.5.1 自动分词语料库多级加工中的应用

1.5.2 汉语自动分词在音字转换技术中的应用

1.5.3 汉语自动分词在信息检索技术中的应用

第二章相关理论和技术的研究

2.1 现代汉语自动分词的可行性

2.2 现代汉语自动分词所面临的关键问题

2.2.1 词规范问题

2.2.1.1 汉语词的概念

2.2.1.2 不同应用对词的切分规范要求不同

2.2.2 切分词的歧义

2.2.2.1 未登录词识别

2.2.3 分词与理解的先后

2.3 目前现代汉语自动分词的主要算法

2.3.1 基于词表的分词——最大匹配（MM）

2.3.2 基于统计的分词

2.3.3 基于规则和基于统计相结合

2.4 目前国内外主要几种典型的自动分词系统评价

2.4.1 几个早期的自动分词系统

2.4.2 清华大学SEG 分词系统

2.4.3 国家语委文字所应用句法分析技术的汉语自动分词

2.4.4 复旦分词系统

2.4.5 哈工大统计分词系统

2.4.6 MICROSOFT RESEARCH 汉语句法分析器中的自动分词

2.4.7 北大计算语言所分词系统

2.5 小结

第三章现代汉语自动分词系统的总体设计

3.1 现代汉语自动分词系统的总体设计和功能模块划分

3.2 现代汉语自动分词系统的整体介绍

3.3 小结

第四章自动分词系统的实现中的问题与详细设计

4.1 现代汉语中字符的编码

4.2 自动分词系统中的词库

4.3 现代汉语中的字符串的分析

4.4 自动分词系统中分词算法的实现

4.4.1 最大匹配法

4.4.2 逆向扫描算法

4.4.3 最大概率法

4.4.3.1 自动分词的统计模型

4.4.3.2 最佳路径的搜索

4.4.4 中文姓名的识别

4.4.4.1 基于统计的识别方法

4.4.4.2 中文姓名的概率

4.4.4.3 候选姓名的筛选

4.5 分词结果的比较

4.6 自动分词系统的评测方法

4.7 关于分词的若干统计结果

4.8 小结

第五章总结

5.1 系统的特点

5.2 系统的改进和设想

致谢

参考文献

现代汉语自动分词研究及几个算法的实现

论文摘要

论文目录

相关论文文献

猜你喜欢