论文摘要
随着中国正在向信息化社会迅速前进,其突出特征是Internet上中文网页的急剧增加和中文电子出版物,中文数字图书馆的迅速普及。以及受限文本为主要对象的中文自然语言处理研究于是也水涨船高,重要性日益显著。而汉语自动分词是任何中文处理系统都难以回避的第一道“工序”,其作用是怎么估计都不会过分。只有逾越这个障碍,中文处理系统才称得上初步打上了“智能”的印记,构建于词平面的各种后续语言分析手段才有展示身手的舞台。否则,系统便只能被束缚在字平面上,成不了太大气候。本论文正是针对上述问题,讨论了现代汉语自动分词的现实性、必要性和可行性。并介绍了现代汉语自动分词在软件中的应用和理论中的应用。详细讨论并实现了目前常用的现代汉语分词算法:最大匹配法、逆向扫描算法、最大概率法和中文姓名的识别算法。为了便于分析分词后的数据我设计了一个通用平台可将以上各种算法集合一起。通过这个平台,可以很方便的将新的分词算法挂上去,并了解整个分词的流程。为以后的研究提供了方便。通过对结果的分析,可以了解了各种分词算法的优缺点,分析了分词结果的各种歧义现象。为现代汉语自动分词算法的应用提供了很好的借鉴意义。
论文目录
摘要ABSTRACT第一章 引言1.1 课题来源及本文工作1.2 现代汉语自动分词的现实性1.3 现代汉语自动分词的必要性1.4 现代汉语自动分词在软件中的应用1.4.1 文本自动较对1.4.2 简体/繁体自动转换1.4.3 智能选词1.4.4 全文检索系统1.5 现代汉语自动分词在理论中的应用1.5.1 自动分词语料库多级加工中的应用1.5.2 汉语自动分词在音字转换技术中的应用1.5.3 汉语自动分词在信息检索技术中的应用第二章 相关理论和技术的研究2.1 现代汉语自动分词的可行性2.2 现代汉语自动分词所面临的关键问题2.2.1 词规范问题2.2.1.1 汉语词的概念2.2.1.2 不同应用对词的切分规范要求不同2.2.2 切分词的歧义2.2.2.1 未登录词识别2.2.3 分词与理解的先后2.3 目前现代汉语自动分词的主要算法2.3.1 基于词表的分词——最大匹配(MM)2.3.2 基于统计的分词2.3.3 基于规则和基于统计相结合2.4 目前国内外主要几种典型的自动分词系统评价2.4.1 几个早期的自动分词系统2.4.2 清华大学SEG 分词系统2.4.3 国家语委文字所应用句法分析技术的汉语自动分词2.4.4 复旦分词系统2.4.5 哈工大统计分词系统2.4.6 MICROSOFT RESEARCH 汉语句法分析器中的自动分词2.4.7 北大计算语言所分词系统2.5 小结第三章 现代汉语自动分词系统的总体设计3.1 现代汉语自动分词系统的总体设计和功能模块划分3.2 现代汉语自动分词系统的整体介绍3.3 小结第四章 自动分词系统的实现中的问题与详细设计4.1 现代汉语中字符的编码4.2 自动分词系统中的词库4.3 现代汉语中的字符串的分析4.4 自动分词系统中分词算法的实现4.4.1 最大匹配法4.4.2 逆向扫描算法4.4.3 最大概率法4.4.3.1 自动分词的统计模型4.4.3.2 最佳路径的搜索4.4.4 中文姓名的识别4.4.4.1 基于统计的识别方法4.4.4.2 中文姓名的概率4.4.4.3 候选姓名的筛选4.5 分词结果的比较4.6 自动分词系统的评测方法4.7 关于分词的若干统计结果4.8 小结第五章 总结5.1 系统的特点5.2 系统的改进和设想致谢参考文献
相关论文文献
标签:自动分词论文; 最大匹配法论文; 逆向扫描算法论文; 最大概率法论文; 中文姓名的识别算法论文;