哈萨克文语料库词汇校对研究

哈萨克文语料库词汇校对研究

论文摘要

随着出版业的不断发展,电子书、电子报纸、电子邮件、办公文件等文本电子出版物的不断涌现,如何保证这些文本的正确性,显得越来越重要。哈萨克文文本自动校对系统的研究已成为一项亟待解决的紧迫课题。本文在对目前英语和汉语文本校对技术的研究和分析的基础上,在哈萨克文文本自动校对领域进行了初步的探讨,在文本校对理论研究和技术实现上进行了有益的尝试,并提出了对哈萨克文本校对的一些基础方法。哈萨克文的错误分为两大类:非词错误和真词错误。对于哈萨克文文本非词查错部分,本文在归纳总结错误类型的基础上,对查错方法进行了几种不同方法的讨论。利用哈萨克文字属于字母文字的特点,采用一种在一定规模哈萨克文词库的支持下,利用哈萨克文的词干提取分程序和哈萨克语的构词规则,将词干和词的附加成分进行对比,从中找出非词错误。同时,利用哈萨克语音节和字母的统计概率进一步对非词错误进行排除。这样有针对性地查错,避免了大量计算,降低了算法的复杂度。在哈萨克文文本真词查错部分,根据上下文信息,采用基于2-gram统计模型,即利用文本的局部连接同现概率来进行查错;基于特征的Winnow算法,即利用文本邻接和较长距离的特征,对真词错误进行查错。对于哈萨克文文本校对部分,首先根据哈萨克文文本错误的特点,对一些特殊的错误进行校对,然后采用最短编辑距离和2元音节模型,对非词和真词错误产生校对建议。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 课题概述
  • 1.1.1 课题来源
  • 1.1.2 课题背景
  • 1.2 文本自动校对概述
  • 1.3 中英文校对技术
  • 1.3.1 英文错误分类
  • 1.3.2 英文的校对技术
  • 1.3.3 中文文本错误分析
  • 1.3.4 中文自动校对技术难点分析
  • 1.3.5 中文文本自动校对方法
  • 1.3.6 维吾尔文词汇信息处理技术研究
  • 1.4 哈萨克文文本错误
  • 1.5 本文完成的工作
  • 第2章 哈萨克文文本校对前的基础工作
  • 2.1 哈萨克文介绍
  • 2.2 哈萨克文字母和文字编码
  • 2.2.1 哈萨克文字母
  • 2.2.2 哈萨克文字编码
  • 2.3 哈萨克文词干提取
  • 2.4 文本自动校对策略
  • 2.4.1 n-gram 模型
  • 2.4.2 HMM隐马尔可夫模型
  • 2.4.3 Viterbi算法
  • 第3章 哈萨克文非词错误校对
  • 3.1 哈萨克文本错误分析
  • 3.1.1 词的错误
  • 3.1.2 词干提取中产生的错误
  • 3.2 查错方法的研究
  • 3.2.1 基于大规模真词词典的查找
  • 3.2.2 对词中间添加空格的词错误的分析
  • 3.2.3 基于词干词典的查找
  • 3.2.4 基于音节的查找
  • 3.3 校对技术
  • 3.3.1 单词中间加空格的拼写错误的校对
  • 3.3.2 哈萨克文特有的软音符号“(?)”的脱落或添加错误
  • 3.3.3 对于非特殊的非词错误的校对方法
  • 第4章 哈萨克文真词错误校对
  • 4.1 基于统计语言模型的查错原理
  • 4.1.1 统计语言模型的建立
  • 4.1.2 基于统计语言模型的查错
  • 4.1.3 统计语言模型的校对
  • 4.2 基于特征的语言模型的建立
  • 4.2.1 校对任务的描述
  • 4.2.2 特征学习的Winnow模型
  • 4.2.3 校对过程
  • 第5章 系统实现
  • 5.1 KzSpelling系统的主界面截图
  • 5.2 系统总体模块划分及调用关系设计
  • 5.3 校对结果与分析
  • 第6章 总结和展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 硕士期间发表论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    哈萨克文语料库词汇校对研究
    下载Doc文档

    猜你喜欢