基于双语语料库的机器翻译关键技术研究

基于双语语料库的机器翻译关键技术研究

论文摘要

机器翻译的研究由来已久,但尚未能完全达到人类期望的目标。随着计算机软硬件技术的高速发展,以及语料库建设的完善,利用统计知识的机器翻译成为可能,翻译质量有望离人类的期望更近一步。自噪声信道模型,尤其是最大熵模型提出以来,机器翻译的一个中心任务是如何在模型中融入更有效的知识(特别是语言学知识),以进一步提高机器翻译的质量。本文聚焦于中文-英文之间的机器翻译问题,针对如何有效地在基于中英双语语料库的机器翻译中结合句法知识进行了一系列系统、深入的研究,并形成了一套完整的系统。具体来说,本文包括以下工作:1.提出了一种基于句法知识的词对齐模型及方法。词对齐是统计机器翻译的基础,词对齐的质量将会最终影响到机器翻译的质量。针对中英文之间词对齐的困难,本文提出一种词对齐改进模型,在词对齐过程中引入句法知识,以解释中-英词对齐之间复杂的词序变化。本文首先将反向转录文法(ITG)内隐式的约束转换成显式的位置判断,从而可以有效地将ITG模型引入对数线性词对齐模型。同时,设计了句法分析树与ITG之间的相似度度量,将句法分析树的约束融入到基于ITG的词对齐模型中。通过整合两种类型的句法知识,使得可以对词对齐中的词序变化进行更好的约束。2.提出了一种树-树映射的统计机器翻译模型及方法。由于源句子和目标句子的词序差异,重定序(Reordering)处理翻译过程中目标词顺序的变化,它是统计机器翻译(SMT)过程中需要面对的难题之一。本文提出一种树-树映射的统计机器翻译模型,通过在源句子的句法树与ITG树之间进行映射,实现在全局范围内约束目标短语的顺序变化;同时模型中包含了基于ITG的局部重定序模型特征,通过将两个块的方向预测分解成对两者相邻子块的方向预测,从而能够预测任意长度的两个块之间的翻译方向。局部模型与全局模型的集成,有效地解释了源句子与目标句子之间的复杂关系。3.给出了一种基于双语信息的相似实例检索方法。基于实例的机器翻译(EBMT)采用类比的原理进行翻译,在给定相似实例的条件性,能够产生流畅的译文。因此,如何在大规模的实例库中检索出相似实例,对于EBMT的质量具有重要意义。本文提出一种新颖的相似实例检索方法,利用实例中的词对齐信息,设计了一系列相似度度量,用于计算输入的待翻译句子与训练语料库中实例的相似度,提高了检索的质量;同时,为加快检索的速度,设计了一个双层倒排索引表,提高了检索的效率。4.提出了一种基于实例的统计机器翻译模型及方法。前文提出的树-树模型是从源句子的角度出发,尽量确保生成的译文结构满足与源句子句法树的约束关系。因此,它无法保证目标句子结构的合理性。本文提出一种混合模型,该模型是对树-树模型的扩展,在SMT中结合实例知识,以保证译文的结构合理性以及流畅性。同时,给出了一个基于实例的解码器,它结合统计知识以及实例信息,以提高解码的质量和效率。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究的问题及意义
  • 1.2 研究的背景
  • 1.2.1 语料库
  • 1.2.2 基于语料库的机器翻译
  • 1.2.3 中-英文的差异及其带来的问题
  • 1.2.4 国内机器翻译的研究现状
  • 1.3 本文工作
  • 1.4 本文的论文结构
  • 第二章 基于双语语料库的机器翻译
  • 2.1 基于语料库机器翻译的基本模式
  • 2.2 统计机器翻译的两个里程碑
  • 2.2.1 IBM的噪声信道模型
  • 2.2.2 最大熵模型
  • 2.3 结合句法知识的统计机器翻译模型
  • 2.3.1 基于树的统计机器翻译
  • 2.3.2 反向转录文法
  • 2.4 基于实例的机器翻译模型
  • 2.5 混合机器翻译模型
  • 2.6 小结
  • 第三章 基于句法知识的词对齐
  • 3.1 引言
  • 3.2 词对齐的相关定义
  • 3.3 基于ITG的词对齐模型
  • 3.3.1 满足ITG约束的词对齐
  • 3.3.2 转换ITG约束
  • 3.3.4 词对齐搜索算法
  • 3.3.5 参数训练
  • 3.3.6 权值调整
  • 3.4 融入语言学句法知识的词对齐模型
  • 3.4.1 句法分析树与ITG树的相似度量
  • 3.4.2 整合句法知识的词对齐模型
  • 3.5 实验
  • 3.5.1 词对齐的评价体系
  • 3.5.2 实验用语料库统计信息
  • 3.5.3 词对齐实验及比较
  • 3.5.4 实验的后续分析
  • 3.6 相关工作及讨论
  • 3.7 小结
  • 第四章 树-树映射的统计机器翻译
  • 4.1 引言
  • 4.2 树-树统计机器翻译模型
  • 4.3 基于ITG的局部重定序模型
  • 4.3.1 单个块的输出方向预测
  • 4.3.2 两个块的输出方向预测
  • 4.3.3 重定序模型
  • 4.4 树的同构模型
  • 4.5 模型的训练
  • 4.5.1 块的提取
  • 4.5.2 模型的构建
  • 4.6 解码器
  • 4.7 实验
  • 4.7.1 翻译质量的评价
  • 4.7.2 实验用语料库统计信息
  • 4.7.3 实验设计
  • 4.7.4 实验结果及分析
  • 4.7.5 进一步分析
  • 4.8 相关工作及讨论
  • 4.9 小结
  • 第五章 基于双语知识的相似实例检索
  • 5.1 引言
  • 5.2 实例语料库的索引结构
  • 5.2.1 双层索引结构设计
  • 5.2.2 索引表的构建
  • 5.2.3 语料库实例的索引过程
  • 5.3 快速检索及相关的相似度度量
  • 5.3.1 检索的前期准备
  • 5.3.2 词匹配相似度量
  • 5.3.3 IDF相似度量
  • 5.3.4 块匹配相似度量
  • 5.3.5 快速检索阶段的相似度计算
  • 5.4 精化检索及其相关相似度量
  • 5.4.1 对齐结构度量
  • 5.4.2 语义相似度量
  • 5.4.3 最终的相似度度量
  • 5.5 实验
  • 5.5.1 实验设计
  • 5.5.2 实验结果及分析
  • 5.6 相关工作及讨论
  • 5.7 小结
  • 第六章 基于实例的统计机器翻译
  • 6.1 引言
  • 6.2 基于实例的树-树翻译模型
  • 6.3 基于实例的解码器
  • 6.3.1 解码器的结构
  • 6.3.2 匹配
  • 6.3.3 组合
  • 6.3.4 解码器算法
  • MT'>6.4 混合机器翻译系统:ZZXMT
  • 6.4.1 系统结构
  • 6.4.2 语料库的设计
  • 6.5 实验
  • 6.5.1 实验设计及结果分析
  • 6.6 相关工作及讨论
  • 6.7 小结
  • 第七章 总结和未来工作
  • 7.1 工作总结
  • 7.2 未来的研究工作
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 附录A:作者攻读学位期间参与的科研项目
  • 相关论文文献

    • [1].面向维汉神经机器翻译的双向重排序模型分析[J]. 北京大学学报(自然科学版) 2020(01)
    • [2].多语言的无监督神经机器翻译[J]. 厦门大学学报(自然科学版) 2020(02)
    • [3].罗塞塔石碑与机器翻译[J]. 外语学刊 2020(01)
    • [4].低资源场景下印尼语-汉语机器翻译模型对比分析研究[J]. 湖南工业大学学报 2020(03)
    • [5].神经机器翻译前沿综述[J]. 中文信息学报 2020(07)
    • [6].基于补全信息的篇章级神经机器翻译[J]. 中文信息学报 2020(07)
    • [7].低资源语种傣汉神经机器翻译方法[J]. 昆明理工大学学报(自然科学版) 2020(04)
    • [8].财经新闻机器翻译常见错误类型的译后编辑研究[J]. 信息与电脑(理论版) 2020(16)
    • [9].机器翻译融入翻译教学的模式探究[J]. 科学大众(科学教育) 2018(12)
    • [10].机器翻译给译者带来的机遇和挑战[J]. 安徽文学(下半月) 2018(12)
    • [11].试论机器翻译与人工翻译的未来关系[J]. 未来与发展 2019(02)
    • [12].浅析机器翻译[J]. 文化产业 2018(08)
    • [13].机器翻译与人工翻译的差异以及未来展望[J]. 通讯世界 2019(05)
    • [14].谈“在线网络机器翻译”与“人工翻译”的互补关系[J]. 河北能源职业技术学院学报 2019(02)
    • [15].深度学习时代下的机器翻译[J]. 人工智能 2018(01)
    • [16].从翻译中的意义角度分析机器翻译对翻译的影响[J]. 智库时代 2019(39)
    • [17].浅谈机器翻译的应用与前景分析[J]. 英语广场 2019(09)
    • [18].跨文化交际视角下的机器翻译谬误分析[J]. 北京印刷学院学报 2019(10)
    • [19].21世纪国外机器翻译译后编辑实证研究[J]. 湖南大学学报(社会科学版) 2018(02)
    • [20].基于约束的神经机器翻译[J]. 中国科学:信息科学 2018(05)
    • [21].俄汉机器翻译与人工翻译对比研究[J]. 现代交际 2018(12)
    • [22].机器翻译问题与解决方案研究[J]. 文化创新比较研究 2018(19)
    • [23].面向维汉机器翻译的语料筛选技术研究[J]. 计算机应用研究 2016(12)
    • [24].机器翻译软件的适用性与局限性分析[J]. 戏剧之家 2016(24)
    • [25].基于句法知识的复句解构对韩汉复句机器翻译改进刍议[J]. 洛阳师范学院学报 2017(02)
    • [26].机器翻译:人类距离“重建”巴别塔还有多远?[J]. 机器人产业 2017(03)
    • [27].神经机器翻译前沿进展[J]. 计算机研究与发展 2017(06)
    • [28].利用句法信息改进交互式机器翻译[J]. 中文信息学报 2017(02)
    • [29].基于动态词对齐的交互式机器翻译[J]. 中文信息学报 2017(04)
    • [30].论机器翻译的现状[J]. 南国博览 2019(04)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于双语语料库的机器翻译关键技术研究
    下载Doc文档

    猜你喜欢