依存文法在汉英统计机器翻译中的应用

依存文法在汉英统计机器翻译中的应用

论文摘要

基于句法的统计机器翻译模型近年来成为了统计机器翻译研究的热点,相对于经典的短语模型,句法模型能够将更多的语言学知识融入翻译过程,更好的指导翻译以及重排序。本文以依存句法作为切入点,考察依存句法结构和语言知识标记在翻译过程中所起的作用,提出了加入语法标记的泛化翻译模型,设计并实现了一个跨语言的依存句法分析器和两个基于依存句法结构的机器翻译系统。在依存句法分析方面,构建了一个基于动作序列预测的确定性依存句法分析器;该分析器以移进归约(shift-reduce)方法为基础,加入了基于统计信息的在线错误修正和全局动作序列的选优工作,减小了错误动作的影响;在CoNLL2007的评测集上,中文依存弧标记准确率为(LAS)76.36%,英语LAS为82.93%。在机器翻译方面,本文在依存句法分析的基础上搭建了两个基于依存树到串的统计机器翻译模型;其中模型1采用的是完全词汇化的翻译模板,在源语言端抽取依存子图(treelet),并在目标语言中寻找与之对齐的连续词串信息;在实验中,结合短语规则的系统成绩略低于经典的短语翻译系统;模型2采用了泛化的方法来对已经学习到的词汇化模板进行归纳,与之前的模型不同,本文提出使用语法知识标记对泛化模板进行约束,使用了3种泛化变量的形式,分别代表3种类型的语法信息;具有语法标记的泛化模板加入了语法约束,因而可以更加有效的指导译文的选择和调序;其实验结果超越了基于短语的翻译系统。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 机器翻译
  • 1.2 本文的工作
  • 第二章 依存句法分析器
  • 2.1 依存文法简介
  • 2.2 基于统计的依存句法分析器系统
  • 2.2.1 主流分析方法简介
  • 2.2.2 依存分析模型
  • 2.2.3 实验结果
  • 2.3 总结
  • 第三章 统计机器翻译系统简介
  • 3.1 基于词的翻译模型
  • 3.2 基于短语的翻译模型
  • 3.3 基于句法结构的机器翻译模型简介
  • 3.3.1 基于形式化语法的统计机器翻译模型
  • 3.3.2 基于语言学句法的统计机器翻译模型
  • 第四章 完全词汇化的依存结构翻译模型
  • 4.1 引言
  • 4.2 模型描述
  • 4.3 形式化定义
  • 4.4 训练过程
  • 4.4.1 计算节点对齐覆盖范围
  • 4.4.2 抽取模板
  • 4.5 解码过程
  • 4.5.1 解码算法
  • 4.5.2 对数线性模型的构造
  • 4.5.3 剪枝策略
  • 4.6 集成短语
  • 第五章 基于依存结构的泛化翻译模型
  • 5.1 引言
  • 5.2 模型描述
  • 5.3 训练过程
  • 5.3.1 泛化模板
  • 5.3.2 抽取模板
  • 5.4 解码过程
  • 5.4.1 解码算法
  • 5.4.2 对数线性模型构造
  • 5.5 小结
  • 第六章 翻译系统的实验结果
  • 6.1 系统搭建
  • 6.2 实验结果
  • 第七章 总结和展望
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    依存文法在汉英统计机器翻译中的应用
    下载Doc文档

    猜你喜欢