面向统计机器翻译的语料处理与评价技术研究

面向统计机器翻译的语料处理与评价技术研究

论文摘要

近年来,基于统计的方法在机器翻译领域内越来越占据到主导地位,多种基于统计方法的机器翻译系统相继出现,如基于短语、基于层次型短语、基于句法等等。而对于机器翻译系统,语料是不可或缺的重要资源,所谓“巧妇难为无米之炊”。“饭”做的好吃还是不好吃,“巧妇”很重,当然也不能没有米,“米”质量的好坏也至关重要。为此,本文重点研究统计机器翻译语料的预处理、双语语料质量的评价,以及语料选取和训练集的构建。另外,对双语术语资源的自动获取工作做了一些简单的介绍。语料预处理工作是一项比较繁琐但对机器翻译来讲又十分重要的任务。本文从传统预处理角度介绍了预处理的流程、相关技术。同时结合专利翻译任务语料预处理对涉及到的一些问题进行了讨论。简单的探讨了预处理对机器翻译性能的影响。另外,针对统计机器翻译双语语料质量参差不齐,并且难以保证的问题,本文比较了几种不同的句对质量评价方法,包括基于双语词典的句对质量评价等。从忠诚度和流畅度两个方面来衡量句对质量。通过实验验证了这些方法的合理性,并对其中存在的问题进行了分析。双语专名、术语翻译资源对于机器翻译来说也是非常重要的。本文基于互联网和学术文献数据库,用自动的方法获取了数百万的双语术语翻译资源,并对资源进行了整理和规范化。这些资源为机器翻译系统提供了重要的资源支撑。当然,这些资源同样可用于中文分词,信息检索等诸多领域。在训练语料的选取和训练集构建方面,本文提出了基于句对质量和覆盖度的统计机器翻译训练语料选取方法,通过实验证明了该方法的有效性。在实验数据上,选取原始规模20%的语料作为训练集即达到用全部预料相当的训练效果。并且将该方法用到具体的实际应用中,为CWMT2011机器翻译评测选取100万中英双语句对作为训练语料。相关实验充分表明了该方法的优势,且简单有效。在测试集给定并且训练语料有限情况下,为了达到更佳的训练效果,需要对原始训练集进行优化。有些研究是从原始的训练集中选择和测试集相似的句对,通过加重这些相似句对权重的方法来优化训练集的分布,达到提高翻译性能的目的。基于这样的思想,本文给出了两种得到和测试集相关语料的方法,初步实验表明,这两种方法均能在一定程度上优化训练集的训练效果。基于之前的工作,本文认为在构建和优化训练集时,领域相似度、句子流畅度、翻译的忠诚度、训练集的覆盖度等应当综合考虑,视具体的任务选择训练集的构建方案。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 本文的主要思路和贡献
  • 1.4 章节安排
  • 第2章 统计机器翻译框架
  • 2.1 统计机器翻译平台的翻译流程介绍
  • 2.2 本章小结
  • 第3章 语料前(预)处理技术和实践
  • 3.1 预处理各个模块
  • 3.2 语料预处理流程介绍
  • 3.2.1 乱码处理模块
  • 3.2.2 半全角转换
  • 3.2.3 英文词串化和大小写转换
  • 3.2.4 中文分词
  • 3.2.5 双语句对过滤
  • 3.2.6 命名实体翻译替换
  • 3.3 面向专利翻译的语料预处理
  • 3.3.1 分词错误纠正
  • 3.3.2 专利号的识别翻译翻译和泛化
  • 3.3.3 公式串的识别翻译和泛化
  • 3.3.4 数量词识别翻译
  • 3.3.5 专业术语的处理
  • 3.3.6 可直译成分的处理
  • 3.3.7 不同预处理处理对机器翻译性能的影响
  • 3.4 预处理小结
  • 第4章 术语翻译资源的构建和利用
  • 4.1 基于网页的术语翻译资源获取
  • 4.2 从专业文献获取术语翻译资源
  • 4.3 NEUNLP双语翻译资源的整理和格式标准定义
  • 4.4 本章小结
  • 第5章 统计机器翻译语料质量评价和训练集的构建
  • 5.1 语料句对质量评价方法
  • 5.1.1 基于双语词典的句对翻译质量
  • 5.1.2 基于句对翻译概率的方法
  • 5.1.3 基于流畅度和忠诚度的句对质量打分
  • 5.1.4 实验和分析
  • 5.1.5 小结
  • 5.2 统计机器翻译训练语料的选取和高质量训练集的构建
  • 5.2.1 基于句对质量和覆盖度的方法
  • 5.3 CWMT2011中英任务训练语料的选取和训练集构建
  • 5.3.1 训练语料选取和训练集构建的过程
  • 5.3.2 实验与分析
  • 5.3.3 选取双语句对构建训练集考虑的因素
  • 5.4 给定测试集状况下训练集的优化策略初探
  • 5.4.1 基于检索技术选取与测试集相关句对优化训练集的方法
  • 5.4.2 基于语言模型技术选取与测试集相似句优化训练集的方法
  • 5.4.3 两种基于相似度优化构建语料方法的比较
  • 5.5 结论和相关总结
  • 第6章 工作总结与展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的论文及参与的项目
  • 相关论文文献

    • [1].基于句对质量和覆盖度的统计机器翻译训练语料选取[J]. 中文信息学报 2011(02)
    • [2].论语料编选原则之间的关系——以语音训练语料为例[J]. 华文教学与研究 2011(03)
    • [3].限定领域语言模型训练语料的词类扩展方法[J]. 计算机系统应用 2011(11)
    • [4].小训练语料下基于均值超矢量聚类的说话人确认方法[J]. 数据采集与处理 2014(02)
    • [5].基于弱监督的属性关系抽取方法[J]. 计算机应用 2014(01)
    • [6].GIZA++计算性能分析[J]. 计算机工程与科学 2010(05)
    • [7].基于条件随机场汉语分词的语料规模量化研究[J]. 电脑与电信 2012(07)
    • [8].基于弱监督学习的中文百科数据属性抽取[J]. 电子科技大学学报 2014(05)
    • [9].TDT中新发现话题的分类研究与实现[J]. 武汉理工大学学报(信息与管理工程版) 2009(05)
    • [10].基于SVM和词间特征的新词识别研究[J]. 计算机技术与发展 2012(05)
    • [11].基于上下文翻译的有监督词义消歧研究[J]. 计算机科学 2017(04)
    • [12].基于LFMMI准则的低资源普通话识别改进[J]. 计算机工程与设计 2019(09)
    • [13].基于数据增强及领域适应的神经机器翻译技术[J]. 江西师范大学学报(自然科学版) 2019(06)
    • [14].融合多类型特征的特定领域实体识别研究[J]. 计算机应用与软件 2019(11)
    • [15].机器翻译自动评价中领域知识复述抽取研究[J]. 北京大学学报(自然科学版) 2017(02)
    • [16].一种词法分析与字标注分词结合的方法[J]. 电脑知识与技术 2012(08)
    • [17].基于三元词组模式的微博情感分类方法[J]. 山西大学学报(自然科学版) 2015(02)
    • [18].基于支持向量机和约束条件的新词识别研究[J]. 计算机技术与发展 2014(01)
    • [19].第七届全国机器翻译研讨会机器翻译评测总结[J]. 中文信息学报 2012(01)
    • [20].基于半监督隐马尔科夫模型的汉语词性标注研究[J]. 小型微型计算机系统 2015(12)
    • [21].使用源语言复述知识改善统计机器翻译性能[J]. 北京大学学报(自然科学版) 2015(02)
    • [22].中文专利中本体关系获取研究[J]. 现代图书情报技术 2013(10)
    • [23].中文分词中未登录词分布规律及处理方法研究[J]. 解放军外国语学院学报 2013(05)
    • [24].基于词典信息的先秦汉语全文词义标注方法研究[J]. 中文信息学报 2012(03)
    • [25].基于多重过滤策略的科技文献自动标引方法研究[J]. 情报理论与实践 2012(12)
    • [26].面向汉语建模的自适应词表生成算法[J]. 自动化学报 2008(01)
    • [27].面向非结构化文本的开放式实体属性抽取[J]. 江西师范大学学报(自然科学版) 2013(03)
    • [28].统计与词典相结合的领域自适应中文分词[J]. 中文信息学报 2012(02)
    • [29].基于双语句对覆盖度的维汉机器翻译语料选取技术[J]. 中国科学技术大学学报 2017(04)
    • [30].基于隐马尔可夫模型的主观句识别[J]. 中文信息学报 2016(04)

    标签:;  ;  ;  ;  ;  ;  ;  

    面向统计机器翻译的语料处理与评价技术研究
    下载Doc文档

    猜你喜欢