论文摘要
机器翻译是自然语言处理的核心课题,统计方法在机器翻译中的应用在近二十年里得到复苏,各种统计机器翻译模型被提出并表现出巨大的潜力。在各种统计机器翻译模型中,目前占主流地位的是基于短语的翻译模型。短语模型简单而健壮并在各种测评中表现良好,引起了研究者的广泛关注。本文的工作建立在基于短语的翻译模型基础上,力图通过改善短语模型的某些关键步骤或关键问题来提高短语翻译系统的性能。具体而言,论文围绕词语对齐、词语调序和语言模型等三方面展开了深入的研究,并取得了一系列成果。针对词语对齐问题,论文提出了一种基于多目标进化算法的词语对齐模型,首次将词语对齐问题描述成多目标优化问题并选择了一种高效的多目标进化算法——NSGA-Ⅱ来实现优化。该模型同时具有传统IBM模型无监督性的优点和基于区别性的模型易扩展性的优点。针对词语调序问题,论文提出了一种基于源语言组块调序的词语调序新模型。该模型将词语调序问题的处理作为短语翻译的预处理阶段,因而能很好地和短语模型配合使用。同时,该模型将词语调序问题的处理建立在源语言组块分析的基础上,因而既能利用源语言句法层面上的信息来指导调序,又不依赖完整句法分析,特别适合如汉英翻译这样源语言句法分析难度较大的情况。针对语言模型问题,论文在传统短语概念基础上提出了链接短语的概念并以此为基础将基于链语法的语言模型结合到基于短语的统计机器翻译模型中。首次实现将非句法的翻译模型与句法语言模型相结合,在保持短语模型总体框架不变的前提下借助句法语言模型的长距离预测能力来指导译文的选择。