英汉机器翻译系统关键技术研究

英汉机器翻译系统关键技术研究

论文摘要

机器翻译是自然语言处理的一个重要研究领域,在当今信息社会及军事部门有着广泛的应用前景。本文以英汉机器翻译系统为目标,对翻译机制、源语言分析、实例模式匹配、结构转换与目标生成等几个方面的关键技术和方法进行了研究,提出了一些解决问题的新观点和新方法,建立了具有较高翻译正确率的英汉机器翻译系统。本文主要完成了以下工作: 1、提出了基于转换与基于实例模式相结合的机器翻译方法。在翻译机制方面,研究了现有的各种机器翻译方法,比较各自的优缺点并结合现有资源和工作实际,提出了基于转换与基于实例模式相结合(TB-EPB)的机器翻译方法。该方法继承了基于转换方法的稳定性和基于实例方法译文质量高的特点。基于实例模式方法是基于实例方法的扩展,在词法和浅层句法分析后,输入句子与实例模式库在多个层次上匹配,并产生译文。评测和实验结果显示,译文质量综合评价值达到87.5,平均翻译速度为63.64单词/秒,译文正确率达到88%。 2、设计了一个基于规则的词法分析器。结合系统模型,研究并设计了一个基于规则的词法分析器,以及贯穿整个机器翻译过程的语言学知识源——综合词典。设计了词条检索的哈希算法,用形式语言描述了与该词法分析器相关的各种规则知识和数据结构。介绍了词法分析中形态预处理、形态分析、未收录词处理、词组分析和词性标注等各子模块的分析算法。 3、提出了一种新的词性标注融合策略——相关投票法。词性标注是机器翻译系统中的一项基础工作。本文对四种基于语料库的词性标注方法进行了深入研究,并在此基础上提出了一种新的词性标注融合策略——相关投票法,从理论上分析了该方法的优越性,并与其它融合策略进行了对比实验。实验结果表明,应用融合策略可以更加全面地描述词性标注知识,从而更好地完成词性标注任务:在几种融合策略中,相关投票法是最优秀的,它使标注的平均错误率降低27.85%。 4、提出了基于粗糙集的基本名词短语识别方法。基本名词短语(BaseNP)识别是自然语言浅层分析的主要研究内容之一。本文提出的基于粗糙集的基本名词短语识别方法用粗糙集理论解决BaseNP标注问题,并在此基础上用一个有限状态转换器实现BaseNP识别。论文介绍了基于粗糙集的规则学习方法和相应的算法,以及BaseNP标注和识别的算法流程;给出了详细的实验步骤和结果;通过实例冲突问题的解决,提高了识别效果;并与几种典型方法进行了比较与分析。结果表明,基于粗糙集的方法能够发现特征问的依赖性,并从整体上优化规则,BaseNP识别的Fβ值达到92.32%。 5、提出了基于扩展的CFG和GLR算法的浅层句法分析器。浅层句法分析是指短语级的自然语言句法分析,是基于转换和基于实例模式两种翻译方法共同的基础。本文提出的

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 机器翻译概述
  • 1.1.1 基本概念
  • 1.1.2 基于规则方法
  • 1.1.3 基于语料库方法
  • 1.1.4 混杂方法
  • 1.2 机器翻译研究的发展与现状
  • 1.2.1 机器翻译的发展历程
  • 1.2.2 机器翻译的现状
  • 1.3 基于转换和基于实例/模式相结合的机器翻译方法
  • 1.4 论文的主要内容
  • 第二章 基于规则的词法分析
  • 2.1 综合词典
  • 2.1.1 词典的逻辑结构
  • 2.1.2 词条的检索
  • 2.1.3 散列函数的选择
  • 2.2 词法分析规则描述
  • 2.2.1 形态规则
  • 2.2.2 构词规则与派生词表
  • 2.2.3 组词规则
  • 2.2.4 词性标注规则
  • 2.3 词法分析算法
  • 2.3.1 形态预处理
  • 2.3.2 形态分析
  • 2.3.3 未收录词处理
  • 2.3.4 词组分析
  • 2.3.5 基于规则的词性标注
  • 2.4 词法分析实验
  • 2.4.1 实验准备
  • 2.4.2 实验内容及结果
  • 2.5 本章小节
  • 第三章 词性标注的相关投票融合技术
  • 3.1 基于规则学习的词性标注
  • 3.1.1 基于转换的错误驱动词性标注
  • 3.1.2 基于决策树的词性标注
  • 3.2 基于统计的词性标注
  • 3.2.1 HMM词性标注
  • 3.2.2 最大熵词性标注
  • 3.3 相关投票融合技术
  • 3.3.1 融合策略——相关投票法
  • 3.3.2 融合参数提取与融合方式
  • 3.3.3 实验结果及分析
  • 3.4 本章小节
  • 第四章 基于粗糙集的基本名词短语识别
  • 4.1 基于粗糙集的规则学习
  • 4.1.1 属性约简
  • 4.1.2 决策规则生成
  • 4.2 基于粗糙集的BaseNP识别
  • 4.2.1 标注规则学习
  • 4.2.2 BaseNP标注与识别
  • 4.3 实例冲突的处理
  • 4.4 基于粗糙集方法与其它方法的比较
  • 4.5 本章小节
  • 第五章 基于GLR算法的浅层句法分析
  • 5.1 浅层句法分析概述
  • 5.1.1 语块识别
  • 5.1.2 语块分析
  • 5.1.3 本文的浅层句法分析
  • 5.2 扩展的上下文无关文法
  • 5.2.1 LR和GLR算法
  • 5.2.2 扩展的CFG
  • 5.3 浅层句法分析器
  • 5.3.1 分析器的结构
  • 5.3.2 基于GLR的分析算法
  • 5.4 浅层句法分析器的实现
  • 5.5 本章小节
  • 第六章 基于实例模式的翻译
  • 6.1 实例模式库的建立
  • 6.1.1 英汉双语语料库
  • 6.1.2 句子对齐
  • 6.1.3 实例模式的结构
  • 6.1.4 模式抽取
  • 6.2 实例模式相似度计算
  • 6.2.1 语法相似度计算
  • 6.2.2 语义相似度计算
  • 6.3 实例模式匹配
  • 6.3.1 候选实例模式的产生
  • 6.3.2 实例模式的选择
  • 6.4 本章小节
  • 第七章 句子转换与目标生成
  • 7.1 基于EICG的句型转换
  • 7.1.1 一般疑问句的处理
  • 7.1.2 特殊疑问句的处理
  • 7.1.3 反意和选择疑问句的处理
  • 7.2 句子结构分析与转换
  • 7.2.1 复杂长句处理
  • 7.2.2 简单句结构分析
  • 7.2.3 转换规则
  • 7.2.4 句子结构转换
  • 7.3 短语目标生成
  • 7.3.1 动词、名词短语处理
  • 7.3.2 介词短语处理
  • 7.4 本章小节
  • 第八章 系统评测与实验
  • 8.1 系统评测
  • 8.1.1 评测方法
  • 8.1.2 评测结果
  • 8.2 系统实验
  • 8.2.1 实验过程
  • 8.2.2 实验结果与分析
  • 8.3 本章小结
  • 结束语
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 附录A 浅层句法分析附表
  • 相关论文文献

    • [1].浅析英汉机器翻译系统的问题和对策[J]. 连云港师范高等专科学校学报 2014(04)
    • [2].谷歌和百度机器翻译系统对军事英语文本中词汇翻译之对比研究[J]. 教育信息化论坛 2019(08)
    • [3].ЭТАП-3机器翻译系统研究[J]. 哈尔滨师范大学社会科学学报 2013(05)
    • [4].多种数据泛化策略融合的神经机器翻译系统[J]. 江西师范大学学报(自然科学版) 2020(01)
    • [5].多策略融合的机器翻译系统研究[J]. 校园英语 2018(15)
    • [6].机器翻译系统的历史与研究现状分析[J]. 淮海工学院学报(人文社会科学版) 2012(12)
    • [7].机器翻译系统发展与研究[J]. 中国新技术新产品 2011(13)
    • [8].基于语料库的机器翻译系统[J]. 术语标准化与信息技术 2010(01)
    • [9].两种类型英汉机器翻译系统性能的对比研究[J]. 企业家天地(理论版) 2010(04)
    • [10].论机器翻译系统的评价体系[J]. 北京理工大学学报(社会科学版) 2008(02)
    • [11].浅析并置理论视角下的机器翻译[J]. 科教文汇(上旬刊) 2014(02)
    • [12].21世纪中俄机器翻译现状对比研究[J]. 哈尔滨师范大学社会科学学报 2012(02)
    • [13].面向翻译教学的机器翻译系统建构[J]. 西安文理学院学报(社会科学版) 2010(03)
    • [14].语义块主辅变换在机器翻译系统中的应用[J]. 洛阳师范学院学报 2010(05)
    • [15].机器翻译系统的模糊评价方法[J]. 微计算机信息 2008(01)
    • [16].基于释义信息的维汉机器翻译系统融合研究探索[J]. 记者观察 2019(29)
    • [17].基于实例的机器翻译系统的模型设计[J]. 西南民族大学学报(自然科学版) 2009(04)
    • [18].英汉机器翻译系统中的词性标注研究[J]. 计算机工程与应用 2010(20)
    • [19].语义块主辅变换在机器翻译系统中的应用[J]. 云南师范大学学报(对外汉语教学与研究版) 2010(04)
    • [20].从机器翻译评测看机器翻译发展[J]. 中国科技翻译 2008(02)
    • [21].基于释义信息的维汉机器翻译系统融合研究[J]. 计算机工程 2019(04)
    • [22].神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J]. 清华大学学报(自然科学版) 2017(08)
    • [23].多策略汉日机器翻译系统中的核心技术研究[J]. 中文信息学报 2008(05)
    • [24].在线英汉机器翻译系统调查与分析[J]. 语文学刊 2009(19)
    • [25].机器翻译简介[J]. 校园英语 2014(21)
    • [26].汉壮机器翻译初探[J]. 民族翻译 2011(01)
    • [27].汉蒙机器翻译系统中量词翻译研究[J]. 中文信息学报 2010(05)
    • [28].基于统计的汉英机器翻译技术的研究[J]. 电子设计工程 2016(21)
    • [29].人工智能机器翻译能力等级评估标准化研究[J]. 信息技术与标准化 2020(Z1)
    • [30].汉英机器翻译中从句复杂度的错误分析[J]. 微型电脑应用 2020(09)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    英汉机器翻译系统关键技术研究
    下载Doc文档

    猜你喜欢