论文摘要
主流的统计机器翻译(Statistical Machine Translation:SMT)方法本质上是词汇化的,将词当成独立实体进行翻译,这种词汇化的方法缺点是无法充分利用形态丰富的语言的形态信息。在形态非对称的汉蒙统计机器翻译模型中,由于蒙古语具有丰富的形态变化,而产生严重的选择歧义问题,从而产生译文词形变化上的错误(比如,数、格、人称、性别的不一致以及动词时态、语态不符合上下文等),加深了译文在语法、语义、语用等多个层面的错误。与此同时,蒙古语形态变化的多样性,导致汉蒙平行双语语料规模较小的汉蒙机器翻译系统的数据稀疏问题更加严重。本文将从汉蒙SMT具有形态非对称的特点入手,从蒙古语的形态信息的分析和融合两个角度克服形态非对称汉蒙SMT模型构造问题。首先,结合机器翻译模型和最小上下文构成代价模型对蒙古语进行了形态学切分。然后,提出了因子化翻译模型、链式机器翻译模型以及PageRank重排序的方法以解决非对称汉蒙SMT模型构造问题。因子化翻译模型在训练过程中将词干、词缀视为因子进行翻译,通过多个翻译模型和生成模型,完成目标语言词形的生成。链式机器翻译系统将词干、词缀作为中间语言进行处理。即汉语先翻译成词素,然后根据蒙古语的构词特点,分别采用正则表达式和机器翻译的方法恢复蒙古语。PageRank重排序的方法融合了同一机器翻译系统不同语料的翻译结果,在后处理层面上融合词素信息进行重排序。实验证实,相对标准的短语机器翻译模型,融入形态学信息的统计机器翻译模型构造方法,显著地提高了机器翻译系统翻译质量。
论文目录
摘要ABSTRACT第一章 绪论1.1 汉蒙机器翻译的挑战1.1.1 汉蒙语序差异大1.1.2 数据稀疏问题严重1.1.3 语言非对称研究难度大1.2 研究意义1.3 研究方法1.3.1 蒙古文形态切分1.3.2 因子化模型1.3.3 链式机器翻译1.3.4 PageRank重排序第二章 机器翻译概况2.1 基于规则的机器翻译2.2 基于统计的机器翻译2.2.1 基于词的翻译模型2.2.2 基于短语的翻译模型2.2.3 基于句法的机器翻译模型2.3 机器翻译评测第三章 蒙古文形态分析3.1 蒙古文形态切分引言3.2 短语统计机器形态切分模型3.3 最小上下文构成代价模型3.3.1 特征选取3.3.2 代价模型3.3.3 切分解码算法3.4 语料预处理及统计分析3.4.1 语料预处理3.4.2 语料统计3.5 切分实验及分析3.5.1 PSMTMS形态切分3.5.2 最小切分代价3.5.3 实验设计及结果分析3.5.4 结论和讨论第四章 因子化翻译模型4.1 短语机器翻译4.2 因子化模型4.3 因子化翻译模型实验4.3.1 语料处理4.3.2 实验4.3.3 结果和分析第五章 链式机器翻译系统5.1 研究概况5.2 理论概述5.2.1 系统概况5.2.2 正则表达式恢复词边界5.2.3 机器翻译恢复词边界5.2.4 短语翻译表合并5.3 实验及结果分析5.3.1 正则表达式5.3.2 机器翻译5.3.3 短语翻译表合并5.3.4 结果分析第六章 PageRank重排序6.1 PageRank概述6.2 混淆网络与PageRank模型6.2.1 单一系统6.2.2 构建混淆网络6.3 Nbest 重排序6.3.1 PageRank和随机游走6.3.2 翻译结果排序6.4 实验及结果分析第七章 总结与展望7.1 总结7.2 研究展望参考文献致谢在读期间发表的学术论文与取得的研究成果
相关论文文献
标签:机器翻译论文; 蒙古语论文; 形态分析论文; 因子化翻译模型论文; 链式机器翻译系统论文; 重排序论文;