论文摘要
基于句法的统计机器翻译模型近年来成为了统计机器翻译研究的热点,相对于经典的短语模型,句法模型能够将更多的语言学知识融入翻译过程,更好的指导翻译以及重排序。本文以依存句法作为切入点,考察依存句法结构和语言知识标记在翻译过程中所起的作用,提出了加入语法标记的泛化翻译模型,设计并实现了一个跨语言的依存句法分析器和两个基于依存句法结构的机器翻译系统。在依存句法分析方面,构建了一个基于动作序列预测的确定性依存句法分析器;该分析器以移进归约(shift-reduce)方法为基础,加入了基于统计信息的在线错误修正和全局动作序列的选优工作,减小了错误动作的影响;在CoNLL2007的评测集上,中文依存弧标记准确率为(LAS)76.36%,英语LAS为82.93%。在机器翻译方面,本文在依存句法分析的基础上搭建了两个基于依存树到串的统计机器翻译模型;其中模型1采用的是完全词汇化的翻译模板,在源语言端抽取依存子图(treelet),并在目标语言中寻找与之对齐的连续词串信息;在实验中,结合短语规则的系统成绩略低于经典的短语翻译系统;模型2采用了泛化的方法来对已经学习到的词汇化模板进行归纳,与之前的模型不同,本文提出使用语法知识标记对泛化模板进行约束,使用了3种泛化变量的形式,分别代表3种类型的语法信息;具有语法标记的泛化模板加入了语法约束,因而可以更加有效的指导译文的选择和调序;其实验结果超越了基于短语的翻译系统。