统计机器翻译中结构转换技术的研究

统计机器翻译中结构转换技术的研究

论文摘要

在统计机器翻译领域,基于短语的方法是最为成熟和稳定的方法,但是目前已经很难再有改进的余地。对于语料库中曾经出现过的短语,短语模型可以给出比较准确的翻译,这种翻译包括译文的选择词和短语内部语序的调整。但对于短语之间的语序调整,以及无法匹配的短语,这种方法难以给出有效的解决办法。因为这种方法完全没有利用深层次的句法结构信息,更不用说复杂的语义等方面的知识了。为此,人们寄希望于引入更深层次的语言结构来改进现有方法的性能。一种最直接的想法,就是引入句法结构,在句法结构的基础上建立统计机器翻译模型。本文提出了一个从源语言元结构组到目标语言元结构组的结构转换模型。从大规模的句对齐的双语句法树中,根据词汇对齐信息抽取源语言的元结构组和目标语言的元结构组的互译对,计算翻译概率。分析非线性语言模型与线性序列语言模型的异同,设计并实现了基于元结构的非线性语言模型,以此来控制元结构组的调序。采用最小错误率训练算法来训练对数线性模型中的参数,最小错误率将解码评分标准和自动评测标准BLEU结合起来,将多维优化问题分解为多次一维优化,将求解问题从连续空间转换到有限的离散空间。大大降低了求解的复杂度和难度。实验证明,经最小错误率训练后系统性能明显提高。最后将结构转换模型应用到统计机器翻译中,利用结构转换模型来隐藏源语言和目标语言之间的句法结构的异构现象。将词汇级的远距离调序转换成元结构组间的局部调序。实验证明,基于结构转换的机器翻系统的性能远远超过了基于短语的机器翻译系统Pharaoh的性能。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的背景和意义
  • 1.2 国内外相关研究综述
  • 1.2.1 基于词方法的统计机器翻译模型
  • 1.2.2 基于短语的统计翻译模型
  • 1.2.3 基于句法的统计机器翻译模型
  • 1.3 课题来源
  • 1.4 本文研究内容及结构
  • 第2章 结构转换模型
  • 2.1 引言
  • 2.1.1 基于形式化语法的模型
  • 2.1.2 基于短语结构语法的模型
  • 2.1.3 基于依存语法的模型
  • 2.2 基于元结构的结构转换模型
  • 2.2.1 基本概念
  • 2.2.2 结构转换的基本思想
  • 2.2.3 基于Log-linear 的结构转换模型
  • 2.3 本章小结
  • 第3章 元结构的非线性语言模型
  • 3.1 引言
  • 3.2 n-gram 语言模型
  • 3.3 基于元结构的非线性n-gram 语言模型
  • 3.3.1 非线性n-gram 语言模型与线性n-gram 语言模型的区别
  • 3.3.2 Katz back-off 平滑算法
  • 3.3.3 基于元结构的非线性n-gram 语言模型的实现
  • 3.4 本章小结
  • 第4章 模型的参数训练
  • 4.1 引言
  • 4.2 机器翻译中的自动评价标准
  • 4.3 最小错误率训练标准
  • 4.4 非平滑错误率计算的最优化算法
  • 4.5 实验结果与分析
  • 4.5.1 实验系统及设置
  • 4.5.2 实验结果及分析
  • 4.6 本章小结
  • 第5章 基于结构转换的统计机器翻译系统
  • 5.1 引言
  • 5.2 基于结构转换的翻译模型
  • 5.3 机器翻译系统设计与实现
  • 5.3.1 模型的训练
  • 5.3.2 解码器的设计与实现
  • 5.4 实验结果与分析
  • 5.4.1 实验系统及设置
  • 5.4.2 实验结果及分析
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].统计机器翻译中短语切分的新方法[J]. 电子测试 2017(02)
    • [2].研究汉语语言模型的规模对统计机器翻译系统的影响[J]. 电脑知识与技术 2016(35)
    • [3].统计机器翻译研究专利申请分析[J]. 科技展望 2016(28)
    • [4].面向短语统计机器翻译的汉日联合分词研究[J]. 计算机工程与应用 2015(05)
    • [5].统计机器翻译中文分词优化技术研究[J]. 现代图书情报技术 2012(04)
    • [6].汉蒙统计机器翻译中的调序方法研究[J]. 中文信息学报 2011(04)
    • [7].基于短语的汉蒙统计机器翻译研究[J]. 计算机工程与应用 2010(14)
    • [8].统计机器翻译中大规模特征的深度融合[J]. 浙江大学学报(工学版) 2017(01)
    • [9].《统计机器翻译》述评[J]. 外语教学与研究 2013(04)
    • [10].基于统计机器翻译的汉维词对齐研究[J]. 计算机应用与软件 2011(04)
    • [11].依存句法语言模型对短语统计机器翻译性能的影响[J]. 计算机科学 2014(02)
    • [12].融合格框架的基于语块的依存树到串日汉统计机器翻译模型[J]. 中文信息学报 2014(05)
    • [13].机器翻译及其评测技术简介[J]. 术语标准化与信息技术 2010(01)
    • [14].一种基于短语的汉蒙统计机器翻译与调序模型[J]. 高技术通讯 2009(05)
    • [15].基于层次短语的汉蒙统计机器翻译研究[J]. 内蒙古师范大学学报(自然科学汉文版) 2013(03)
    • [16].维-汉统计机器翻译中维吾尔语预处理研究[J]. 计算机工程与设计 2014(11)
    • [17].汉语语言模型的规模对统计机器翻译系统的影响[J]. 微计算机信息 2010(27)
    • [18].基于短语统计机器翻译模型蒙古文形态切分[J]. 中文信息学报 2011(04)
    • [19].面向机器翻译的假朋友语义自动校对[J]. 电子设计工程 2017(11)
    • [20].基于短语相似度的统计机器翻译系统设计[J]. 自动化与仪器仪表 2017(08)
    • [21].基于集成学习的最小错误率训练算法[J]. 厦门大学学报(自然科学版) 2015(06)
    • [22].基于短语的统计机器翻译[J]. 山西财经大学学报 2008(S1)
    • [23].基于短语相似度的统计机器翻译模型[J]. 高技术通讯 2009(04)
    • [24].蒙古文词性标注及融合词性因子的蒙汉统计机器翻译[J]. 内蒙古师范大学学报(自然科学汉文版) 2015(03)
    • [25].短语抽取算法在短语统计机器翻译中的应用[J]. 黑龙江科技信息 2015(27)
    • [26].消失的语言学家:机器翻译发展的现状与歧路[J]. 西南农业大学学报(社会科学版) 2013(10)
    • [27].细节也重要:“牡丹美食卡”英文官网语言质量析论[J]. 廊坊师范学院学报(社会科学版) 2013(03)
    • [28].词语对齐与机器翻译问题研究——以汉蒙机器翻译为例[J]. 民族翻译 2010(01)
    • [29].融合主题的汉越冶金领域统计机器翻译方法[J]. 计算机工程 2017(12)
    • [30].基于短语的蒙汉统计机器翻译系统的设计与实现[J]. 内蒙古师范大学学报(自然科学汉文版) 2011(01)

    标签:;  ;  ;  ;  

    统计机器翻译中结构转换技术的研究
    下载Doc文档

    猜你喜欢