基于短语的统计机器翻译模型若干关键技术研究

基于短语的统计机器翻译模型若干关键技术研究

论文摘要

机器翻译是自然语言处理的核心课题,统计方法在机器翻译中的应用在近二十年里得到复苏,各种统计机器翻译模型被提出并表现出巨大的潜力。在各种统计机器翻译模型中,目前占主流地位的是基于短语的翻译模型。短语模型简单而健壮并在各种测评中表现良好,引起了研究者的广泛关注。本文的工作建立在基于短语的翻译模型基础上,力图通过改善短语模型的某些关键步骤或关键问题来提高短语翻译系统的性能。具体而言,论文围绕词语对齐、词语调序和语言模型等三方面展开了深入的研究,并取得了一系列成果。针对词语对齐问题,论文提出了一种基于多目标进化算法的词语对齐模型,首次将词语对齐问题描述成多目标优化问题并选择了一种高效的多目标进化算法——NSGA-Ⅱ来实现优化。该模型同时具有传统IBM模型无监督性的优点和基于区别性的模型易扩展性的优点。针对词语调序问题,论文提出了一种基于源语言组块调序的词语调序新模型。该模型将词语调序问题的处理作为短语翻译的预处理阶段,因而能很好地和短语模型配合使用。同时,该模型将词语调序问题的处理建立在源语言组块分析的基础上,因而既能利用源语言句法层面上的信息来指导调序,又不依赖完整句法分析,特别适合如汉英翻译这样源语言句法分析难度较大的情况。针对语言模型问题,论文在传统短语概念基础上提出了链接短语的概念并以此为基础将基于链语法的语言模型结合到基于短语的统计机器翻译模型中。首次实现将非句法的翻译模型与句法语言模型相结合,在保持短语模型总体框架不变的前提下借助句法语言模型的长距离预测能力来指导译文的选择。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 统计机器翻译的兴起
  • 1.2 统计机器翻译模型综述
  • 1.3 基于短语的模型及其优缺点
  • 1.4 本文的主要工作及创新点
  • 第2章 基于多目标进化算法的词语对齐模型
  • 2.1 概述
  • 2.2 问题描述
  • 2.3 相关工作
  • 2.4 基于多目标优化的词对齐模型
  • 2.5 目标函数
  • 2.6 多目标优化算法
  • 2.7 实验与讨论
  • 2.8 小结
  • 第3章 基于组块调序的词语调序模型
  • 3.1 概述
  • 3.2 相关工作
  • 3.3 模型框架
  • 3.4 训练阶段的调序——基于排序算法
  • 3.5 解码阶段的调序——基于动态规划
  • 3.6 实验与讨论
  • 3.7 小结
  • 第4章 结合句法语言模型的短语翻译
  • 4.1 概述
  • 4.2 相关工作
  • 4.3 总体思路
  • 4.4 链接短语及其抽取
  • 4.5 在短语翻译中结合链接句法语言模型
  • 4.6 实验与讨论
  • 4.7 小结
  • 第5章 翻译系统Pumpkin介绍
  • 5.1 系统概要
  • 5.2 训练过程
  • 第6章 结论
  • 参考文献
  • 致谢
  • 博士研究生期间取得的成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于短语的统计机器翻译模型若干关键技术研究
    下载Doc文档

    猜你喜欢