论文摘要
随着出版业的不断发展,电子书、电子报纸、电子邮件、办公文件等文本电子出版物的不断涌现,如何保证这些文本的正确性,显得越来越重要。哈萨克文文本自动校对系统的研究已成为一项亟待解决的紧迫课题。本文在对目前英语和汉语文本校对技术的研究和分析的基础上,在哈萨克文文本自动校对领域进行了初步的探讨,在文本校对理论研究和技术实现上进行了有益的尝试,并提出了对哈萨克文本校对的一些基础方法。哈萨克文的错误分为两大类:非词错误和真词错误。对于哈萨克文文本非词查错部分,本文在归纳总结错误类型的基础上,对查错方法进行了几种不同方法的讨论。利用哈萨克文字属于字母文字的特点,采用一种在一定规模哈萨克文词库的支持下,利用哈萨克文的词干提取分程序和哈萨克语的构词规则,将词干和词的附加成分进行对比,从中找出非词错误。同时,利用哈萨克语音节和字母的统计概率进一步对非词错误进行排除。这样有针对性地查错,避免了大量计算,降低了算法的复杂度。在哈萨克文文本真词查错部分,根据上下文信息,采用基于2-gram统计模型,即利用文本的局部连接同现概率来进行查错;基于特征的Winnow算法,即利用文本邻接和较长距离的特征,对真词错误进行查错。对于哈萨克文文本校对部分,首先根据哈萨克文文本错误的特点,对一些特殊的错误进行校对,然后采用最短编辑距离和2元音节模型,对非词和真词错误产生校对建议。
论文目录
摘要Abstract第1章 引言1.1 课题概述1.1.1 课题来源1.1.2 课题背景1.2 文本自动校对概述1.3 中英文校对技术1.3.1 英文错误分类1.3.2 英文的校对技术1.3.3 中文文本错误分析1.3.4 中文自动校对技术难点分析1.3.5 中文文本自动校对方法1.3.6 维吾尔文词汇信息处理技术研究1.4 哈萨克文文本错误1.5 本文完成的工作第2章 哈萨克文文本校对前的基础工作2.1 哈萨克文介绍2.2 哈萨克文字母和文字编码2.2.1 哈萨克文字母2.2.2 哈萨克文字编码2.3 哈萨克文词干提取2.4 文本自动校对策略2.4.1 n-gram 模型2.4.2 HMM隐马尔可夫模型2.4.3 Viterbi算法第3章 哈萨克文非词错误校对3.1 哈萨克文本错误分析3.1.1 词的错误3.1.2 词干提取中产生的错误3.2 查错方法的研究3.2.1 基于大规模真词词典的查找3.2.2 对词中间添加空格的词错误的分析3.2.3 基于词干词典的查找3.2.4 基于音节的查找3.3 校对技术3.3.1 单词中间加空格的拼写错误的校对3.3.2 哈萨克文特有的软音符号“(?)”的脱落或添加错误3.3.3 对于非特殊的非词错误的校对方法第4章 哈萨克文真词错误校对4.1 基于统计语言模型的查错原理4.1.1 统计语言模型的建立4.1.2 基于统计语言模型的查错4.1.3 统计语言模型的校对4.2 基于特征的语言模型的建立4.2.1 校对任务的描述4.2.2 特征学习的Winnow模型4.2.3 校对过程第5章 系统实现5.1 KzSpelling系统的主界面截图5.2 系统总体模块划分及调用关系设计5.3 校对结果与分析第6章 总结和展望6.1 总结6.2 展望参考文献硕士期间发表论文致谢
相关论文文献
标签:哈萨克文论文; 文本校对论文; 最小编辑距离论文; 非词错误论文; 真词错误论文; 语法论文;