高适应性基于实例的机器翻译中关键技术研究

论文摘要

互联网是一个真正无国界的媒介。它为来自不同国家、不同地区的人们提供了一个前所未有的可以自由交流、自由表达的信息平台。然而,在这个无国界的世界里还存在着一个巨大的挑战——如果一个普通中国人想到美国或是德国的网站上看一条信息,外语水平必将成为他能否顺利浏览信息内容的必要前提。而这也正是包括我们在内的许多研究机构及开发厂商之所以要大力发展机器翻译系统的原因所在。在本论文中,作者指出一种具有高适应性的基于实例的机器翻译系统构建方法,该翻译系统建立于浅分析基础之上,具有易于构建、便于移植的特点,并能适用于多个语种间的基于实例的机器翻译系统构建,同时,作者围绕该翻译系统构建过程中所使用到的一些关键技术进行了相应研究。本文的主要工作及创新点列举如下。1、提出一种基于自动机状态转换生成的EBMT翻译模型。该模型先用EBMT翻译方法中的匹配模块从语料库中选择一些与输入文本具有一定相似程度的翻译实例,然后对输入文本及翻译实例进行分析,根据分析结果而对它们分配相应的自动机状态,接着根据这些状态构建自动机并进行状态转换,最后根据状态转换的结果进行译文生成。在生成的过程中,使用语言模型来解决译词选择问题。该方法充分利用了EBMT中基于源语言相似的特性和SMT中基于目标语言相似的特性,同时,对于一些特定表达式采用基于规则的翻译技术。总体上讲,这一翻译模型以基于实例的翻译（EBMT）技术为主,用到了一些基于规则的翻译（RBMT）技术和基于统计的翻译（SMT）技术。相关实验证明该方法可以取得较高质量的译文结果。以这种生成方法为主要理论指导,我们参加了第三届中国统计机器翻译研讨会的英汉受限和汉英受限两项机器翻译评测任务,取得了英汉受限评测第五名、汉英受限第七名的成绩。2、针对篇章级的双语资源中指代现象大量存在的问题,提出使用条件随机场（CRFs）和主动学习法（Active Learning）相结合进行指代消解任务的算法,并在该方法中,提出一种瀑布式的分层聚类算法,取得了很好的实验结果。以这些方法为主要理论指导,我们在NIST组织的2007ACE （Automatic Content Extraction）的中文EDR （Entity Detection and Recognize）评测任务中,取得了评测结果第二名的成绩。3、提出一种基于N-gram语言模型进行机器翻译过程中词义消歧的方法,它把可读性作为词义选择的唯一依据。基本观点是：一个正确选择的歧义词的词义序列一定是使句子读起来最通顺的词义序列,并通过N-gram语言模型来评价句子的流利程度。它是一种易于实现的消歧方法,完全不受领域的限制,可充分利用网络上的资源来训练消歧模型,实验结果也表明该方法有效。4、全面系统地进行了基于支持向量机（SVM）的中文分词研究,并在实验中,提出一种动态加权的特征值分配方法,实验结果表明该方法大幅提高了分词性能。5、针对支持向量机进行分词任务研究中存在分类模型训练速度慢、训练出的模型中支持向量多的问题,提出一种通过消除冗余样本来提高训练速度的算法,并对该算法进行了理论证明。实验结果显示,该方法在消除近40%左右的冗余样本后使系统的性能几乎没有下降。6、提出一种基于N-gram的TM（Translation Memory）系统构建方法,该方法具有通用性,不需要任何的语言分析工具。它可以同时满足句子级的精确翻译和子句级的参考译文推荐。基于该方法构建的TM系统既可以方便的做为一个独立的辅助翻译工具,又可以很好的做为我们翻译系统的第一个翻译引擎。实验表明,该方法速度快,可以满足对时间要求较高的应用场合。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 机器翻译概述

1.1.1 基于规则的机器翻译

1.1.2 基于统计的机器翻译

1.1.3 基于实例的机器翻译

1.2 本文的研究内容

1.3 本文的内容安排

第二章基于N-GRAM的TM系统

2.1 TM概述

2.2 基于N-gramTM系统

2.2.1 句子级的精确匹配

2.2.2 子句子级的推荐

2.2.3 句型的推荐

2.3 实验及分析

2.4 本章小结

第三章基于支持向量机的中文分词策略

3.1 现有常用分词技术

3.2 基于支持向量机（SVM）的中文分词

3.2.1 支持向量机简介

3.2.2 分词问题定义

3.2.3 实验及分析

3.3 基于动态加权的支持向量机进行分词

3.3.1 实验及分析

3.3.2 在SVM框架下计算分词准确率和召回率的一个技巧

3.4 在SVM中消除冗余样本

3.4.1 基本方法介绍

3.4.2 实验及分析

3.5 本章小结

第四章指代消解策略

4.1 前言

4.2 条件随机场简介

4.3 在CRFs中使用主动学习法

4.4 指代消解任务描述

4.4.1 训练集构造

4.4.2 特征集

4.4.3 聚类算法

4.5 实验及分析

4.6 本章小结

第五章 EBMT的匹配策略

5.1 一种基于单词的匹配模型

5.1.1 句子相似度模型

5.1.2 相似句子查找算法

5.1.3 倒排索引表和句子长度表

5.1.4 基于倒排索引的相似句子查找

5.2 实验及分析

5.3 一种改进的二次过滤匹配策略

5.4 本章小结

第六章基于N-GRAM的EBMT词义消歧

6.1 前言

6.2 现有常用消歧方法简介

6.2.1 有监督消歧

6.2.2 基于词典的消歧

6.2.3 无监督消歧

6.3 基于N-gram的词义消歧

6.3.1 我们所面临的消歧问题描述

6.3.2 基于N-gram的消歧方法

6.3.3 实验及分析

6.4 本章小结

第七章基于自动机状态转换生成的EBMT翻译模型

7.1 前言

7.2 基于有限状态自动机转换的生成

7.2.1 建立连接

7.2.2 状态分配

7.2.3 译文生成

7.3 利用语言模型进行译词选择

7.4 特定表达式的翻译

7.5 基于规则的翻译引擎设计

7.6 "汉日"双向翻译实验

7.6.1 评价指标简介

7.6.2 系统资源

7.6.3 实验及分析

7.7 "汉英"双向翻译实验

7.7.1 评测训练语料介绍

7.7.2 测试语料介绍

7.7.3 测试结果

7.7.4 结果分析

7.8 本章小结

第八章结论

8.1 本文所做的工作

8.2 今后的研究工作

8.3 关于机器翻译的思考

8.3.1 机器翻译与人类翻译

8.3.2 机器翻译研究的发展趋势

参考文献

致谢

攻读博士期间发表的论文

高适应性基于实例的机器翻译中关键技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢