哈萨克文语料库词汇校对研究

论文摘要

随着出版业的不断发展,电子书、电子报纸、电子邮件、办公文件等文本电子出版物的不断涌现,如何保证这些文本的正确性,显得越来越重要。哈萨克文文本自动校对系统的研究已成为一项亟待解决的紧迫课题。本文在对目前英语和汉语文本校对技术的研究和分析的基础上,在哈萨克文文本自动校对领域进行了初步的探讨,在文本校对理论研究和技术实现上进行了有益的尝试,并提出了对哈萨克文本校对的一些基础方法。哈萨克文的错误分为两大类:非词错误和真词错误。对于哈萨克文文本非词查错部分,本文在归纳总结错误类型的基础上,对查错方法进行了几种不同方法的讨论。利用哈萨克文字属于字母文字的特点,采用一种在一定规模哈萨克文词库的支持下,利用哈萨克文的词干提取分程序和哈萨克语的构词规则,将词干和词的附加成分进行对比,从中找出非词错误。同时,利用哈萨克语音节和字母的统计概率进一步对非词错误进行排除。这样有针对性地查错,避免了大量计算,降低了算法的复杂度。在哈萨克文文本真词查错部分,根据上下文信息,采用基于2-gram统计模型,即利用文本的局部连接同现概率来进行查错;基于特征的Winnow算法,即利用文本邻接和较长距离的特征,对真词错误进行查错。对于哈萨克文文本校对部分,首先根据哈萨克文文本错误的特点,对一些特殊的错误进行校对,然后采用最短编辑距离和2元音节模型,对非词和真词错误产生校对建议。

论文目录

摘要

Abstract

第1章引言

1.1 课题概述

1.1.1 课题来源

1.1.2 课题背景

1.2 文本自动校对概述

1.3 中英文校对技术

1.3.1 英文错误分类

1.3.2 英文的校对技术

1.3.3 中文文本错误分析

1.3.4 中文自动校对技术难点分析

1.3.5 中文文本自动校对方法

1.3.6 维吾尔文词汇信息处理技术研究

1.4 哈萨克文文本错误

1.5 本文完成的工作

第2章哈萨克文文本校对前的基础工作

2.1 哈萨克文介绍

2.2 哈萨克文字母和文字编码

2.2.1 哈萨克文字母

2.2.2 哈萨克文字编码

2.3 哈萨克文词干提取

2.4 文本自动校对策略

2.4.1 n-gram 模型

2.4.2 HMM隐马尔可夫模型

2.4.3 Viterbi算法

第3章哈萨克文非词错误校对

3.1 哈萨克文本错误分析

3.1.1 词的错误

3.1.2 词干提取中产生的错误

3.2 查错方法的研究

3.2.1 基于大规模真词词典的查找

3.2.2 对词中间添加空格的词错误的分析

3.2.3 基于词干词典的查找

3.2.4 基于音节的查找

3.3 校对技术

3.3.1 单词中间加空格的拼写错误的校对

3.3.2 哈萨克文特有的软音符号“（?）”的脱落或添加错误

3.3.3 对于非特殊的非词错误的校对方法

第4章哈萨克文真词错误校对

4.1 基于统计语言模型的查错原理

4.1.1 统计语言模型的建立

4.1.2 基于统计语言模型的查错

4.1.3 统计语言模型的校对

4.2 基于特征的语言模型的建立

4.2.1 校对任务的描述

4.2.2 特征学习的Winnow模型

4.2.3 校对过程

第5章系统实现

5.1 KzSpelling系统的主界面截图

5.2 系统总体模块划分及调用关系设计

5.3 校对结果与分析

第6章总结和展望

6.1 总结

6.2 展望

参考文献

硕士期间发表论文

致谢

哈萨克文语料库词汇校对研究

论文摘要

论文目录

相关论文文献

猜你喜欢