论文摘要
随着社会的信息化不断深入发展,电子杂志、报刊、文档等各种电子出版物不断涌现。如何保证这些文本的正确性,已经成为自然语言处理研究人员关注的热点。目前,在蒙古文信息处理研究中,校对领域的工作一直以来是一个空白。长期以来,研究人员采用基于字典的校对方法。该方法在词典信息量小的情况下,其效率还能被用户接受。但随着信息量的不断增大,校对的效率将会下降。本文的目标是提出一个能够很好解决目前蒙古文校对领域问题的新方法。主要工作如下:首先,介绍了蒙古文词法和语法方面的相关知识。结合蒙古文的词法特点,从蒙古文单词包含的字符数量、音节数量和音节位置三个角度对蒙古文词汇特性进行了初步分析。其次,重点研究了在自然语言处理领域常用的计算模型和文本相似度计算领域的相关技术。结合对蒙古文词汇特性的分析和各计算模型的比较,本文提出了基于音节的2-gram蒙古文校对模型;同时从校对模型设计、校对模型学习算法设计和校对算法设计三个方面进行详细论述。另外,结合蒙古文的实际特点,论文提出了基于有向图的文本错误分析方法,并对各类型错误进行了分析。
论文目录
摘要ABSTRACT目录图表目录第一章 引言1.1 自然语言信息处理研究的本质及意义1.2 本文主要开展的研究工作1.3 论文结构第二章 自然语言词汇信息处理研究现状2.1 自然语言词汇信息处理研究的目的和意义2.2 国内外自然语言词汇信息处理研究现状2.2.1 英文词汇信息处理研究2.2.2 汉文词汇信息处理研究2.2.3 少数民族语言词汇信息处理研究第三章 蒙古文词汇特性分析3.1 概述3.2 语言知识概述3.3 蒙古文词汇信息分析3.3.1 蒙古文词长性质分析3.3.2 音节特性分析第四章 蒙古文词汇校对模型4.1 语言模型4.1.1 短语结构语法4.1.2 统计语言模型4.1.2.1 基于概率分布的语言模型4.1.2.2 基于上下文信息的语言建模4.2 蒙古文词汇校对模型设计4.3 模型学习算法设计4.4 蒙古文校对算法第五章 蒙古文音节相似性度量5.1 文本相似度5.1.1 相似度5.1.2 相似度计算的主要方法5.2 蒙古文音节相似性度量第六章 错误类型分析1、错误类型一—多余字母2、错误类型二—遗漏字母3、错误类型三—错录字母第七章 校对系统设计与实现7.1 系统总体模块划分及调用关系设计7.2 系统实现7.2.1 预处理模块实现7.2.2 音节切分模块7.2.3 蒙古文校对系统第八章 结论与展望8.1 主要结论8.2 本文的创新之处8.3 后续的研究工作参考文献致谢
相关论文文献
标签:文本校对论文; 模型论文; 蒙古文论文; 音节论文;
基于音节统计语言模型蒙古文词汇分析校正器的设计与实现
下载Doc文档