论文摘要
互联网是一个真正无国界的媒介。它为来自不同国家、不同地区的人们提供了一个前所未有的可以自由交流、自由表达的信息平台。然而,在这个无国界的世界里还存在着一个巨大的挑战——如果一个普通中国人想到美国或是德国的网站上看一条信息,外语水平必将成为他能否顺利浏览信息内容的必要前提。而这也正是包括我们在内的许多研究机构及开发厂商之所以要大力发展机器翻译系统的原因所在。在本论文中,作者指出一种具有高适应性的基于实例的机器翻译系统构建方法,该翻译系统建立于浅分析基础之上,具有易于构建、便于移植的特点,并能适用于多个语种间的基于实例的机器翻译系统构建,同时,作者围绕该翻译系统构建过程中所使用到的一些关键技术进行了相应研究。本文的主要工作及创新点列举如下。1、提出一种基于自动机状态转换生成的EBMT翻译模型。该模型先用EBMT翻译方法中的匹配模块从语料库中选择一些与输入文本具有一定相似程度的翻译实例,然后对输入文本及翻译实例进行分析,根据分析结果而对它们分配相应的自动机状态,接着根据这些状态构建自动机并进行状态转换,最后根据状态转换的结果进行译文生成。在生成的过程中,使用语言模型来解决译词选择问题。该方法充分利用了EBMT中基于源语言相似的特性和SMT中基于目标语言相似的特性,同时,对于一些特定表达式采用基于规则的翻译技术。总体上讲,这一翻译模型以基于实例的翻译(EBMT)技术为主,用到了一些基于规则的翻译(RBMT)技术和基于统计的翻译(SMT)技术。相关实验证明该方法可以取得较高质量的译文结果。以这种生成方法为主要理论指导,我们参加了第三届中国统计机器翻译研讨会的英汉受限和汉英受限两项机器翻译评测任务,取得了英汉受限评测第五名、汉英受限第七名的成绩。2、针对篇章级的双语资源中指代现象大量存在的问题,提出使用条件随机场(CRFs)和主动学习法(Active Learning)相结合进行指代消解任务的算法,并在该方法中,提出一种瀑布式的分层聚类算法,取得了很好的实验结果。以这些方法为主要理论指导,我们在NIST组织的2007ACE (Automatic Content Extraction)的中文EDR (Entity Detection and Recognize)评测任务中,取得了评测结果第二名的成绩。3、提出一种基于N-gram语言模型进行机器翻译过程中词义消歧的方法,它把可读性作为词义选择的唯一依据。基本观点是:一个正确选择的歧义词的词义序列一定是使句子读起来最通顺的词义序列,并通过N-gram语言模型来评价句子的流利程度。它是一种易于实现的消歧方法,完全不受领域的限制,可充分利用网络上的资源来训练消歧模型,实验结果也表明该方法有效。4、全面系统地进行了基于支持向量机(SVM)的中文分词研究,并在实验中,提出一种动态加权的特征值分配方法,实验结果表明该方法大幅提高了分词性能。5、针对支持向量机进行分词任务研究中存在分类模型训练速度慢、训练出的模型中支持向量多的问题,提出一种通过消除冗余样本来提高训练速度的算法,并对该算法进行了理论证明。实验结果显示,该方法在消除近40%左右的冗余样本后使系统的性能几乎没有下降。6、提出一种基于N-gram的TM(Translation Memory)系统构建方法,该方法具有通用性,不需要任何的语言分析工具。它可以同时满足句子级的精确翻译和子句级的参考译文推荐。基于该方法构建的TM系统既可以方便的做为一个独立的辅助翻译工具,又可以很好的做为我们翻译系统的第一个翻译引擎。实验表明,该方法速度快,可以满足对时间要求较高的应用场合。
论文目录
相关论文文献
标签:自然语言处理论文; 机器翻译论文; 基于实例的机器翻译论文; 语言模型论文; 中文分词论文; 指代消解论文; 词义消歧论文;