语义单元自动获取研究

语义单元自动获取研究

论文摘要

机器翻译一直以来都是人类的一个梦想,更是一个世界难题,直到今天仍然没有令人满意的机器翻译系统出现。它的困难在于语言知识的复杂性和人类认识语言规律的有限性。从机器翻译的探索道路人们认识到,要想得到高质量的翻译,须对句子的意义进行分析和理解。基于语义单元的机器翻译借助语义单元库对源语言的句子进行语义分析,并展开为目的语言的句子来实现翻译,其核心是建立一个大规模的语义单元库。建立语义单元库需要提取大量的语义单元。人工提取语义单元费时,费力,并且很难做到提取标准的统一;自动获取语义单元是一种高效的方法,具有统一的获取标准。语义单元自动获取从双语句对中获取语义单元,关键是获取句子的语义单元结构和双语语义单元表示之间的对应关系。针对这些问题本文进行了一系列的研究,主要包括如下三个方面:1.提出基于语义单元树重构的语义单元半自动获取方法:根据组成语义单元表示的各语言的词语分布具有一定的统计规律性(共现)并且语义单元的构造有一定的模式,获取句子的语义结构和双语的语义单元表示之间的对应关系。该方法首先建立一个预备语义单元库,在语义单元库中搜索构成句义(可弃语义单元)的语义单元,然后对句义进行重构,接下来根据语义单元的组合规律推断产生新的语义单元,将人工检查正确的新语义单元加入语义单元库中。该方法通过循环积累过程来获取语义单元,为语义单元库的构建提供一种可行的解决方案。2.提出基于转换和映射的语义单元自动获取方法:利用链语法分析和转换实现英语的浅层语义结构分析,并且通过统计词语对齐找到双语的对应关系。该方法基于语义单元的特点和人工获取经验构造一套规则系统对英语句子的链语法分析结果进行处理,从而设定单词在句子中的语义层次并转换生成语义单元的英语表示;然后利用统计双语词对齐将语义单元的英语表示映射为语义单元的汉语表示,从而获得双语语义单元;最后通过语义单元表示常量竞争、合并以及召回等一系列策略对自动提取结果进行优化。该方法不需现成的语义单元的支持,而是通过浅层的语义分析获取语义单元,对词语对齐有一定的容错性。3.提出基于统计优选的语义单元自动分解方法:利用类比推导对双语句对进行句义分解以获取其语义结构,并同步保持双语的对应关系。该方法首先使用类比的方法对双语句对进行分解,然后对每一个句对的语义单元分解利用参数指数、语言模型指数和翻译模型指数三个统计量,通过多属性决策排序优选最优的分解结果,从而得到语义单元。对产生的可弃语义单元可采用迭代的方法将进一步分解。该方法不受任何语法限制。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景和意义
  • 1.2 机器翻译研究概况
  • 1.2.1 基于规则的机器翻译
  • 1.2.2 基于语料库的机器翻译
  • 1.2.3 多引擎机器翻译
  • 1.2.4 翻译记忆
  • 1.3 翻译知识自动获取研究概况
  • 1.3.1 不带变量的翻译知识获取
  • 1.3.2 翻译模板的自动获取
  • 1.4 语义自动分析
  • 1.4.1 词汇语义
  • 1.4.2 意义表示
  • 1.4.3 语义分析
  • 1.5 本文主要工作和内容组织
  • 1.5.1 本文主要工作
  • 1.5.2 本文内容组织
  • 2 语义单元理论
  • 2.1 语义单元理论的提出
  • 2.2 语义语言和具体自然语言的形式定义
  • 2.3 语义的理解
  • 2.4 语义单元的特点
  • 2.4.1 基本语义单元和可弃语义单元
  • 2.4.2 语义单元的树结构
  • 2.4.3 语义单元与翻译模板
  • 2.5 基于语义单元的机器翻译
  • 3 基于语义单元树重构的半自动获取方法
  • 3.1 语义单元数据格式和存储结构
  • 3.1.1 双语句对的存储结构
  • 3.1.2 语义单元库的存储结构
  • 3.1.3 基本字符结构
  • 3.2 语义单元结构推断
  • 3.2.1 语义单元的规律
  • 3.2.2 与规则有关的定义
  • 3.2.3 规则表示
  • 3.2.4 规则应用举例
  • 3.3 系统流程与算法
  • 3.3.1 总体算法
  • 3.3.2 预处理
  • 3.3.3 语义单元表示的搜索匹配
  • 3.3.4 常量匹配算法
  • 3.3.5 语义单元树重构
  • 3.3.6 推断
  • 3.4 实验及讨论
  • 3.4.1 实验设计
  • 3.4.2 实验结果和分析
  • 3.4.3 小结
  • 4. 基于转换和映射的语义单元自动获取
  • 4.1 链语法
  • 4.1.1 链语法及其特性
  • 4.1.2 连接因子
  • 4.1.3 链语法分析举例
  • 4.2 句子链到语义单元表示的转换
  • 4.2.1 转换规则
  • 4.2.2 转换算法
  • 4.2.3 转换实例
  • 4.3 英语表示到汉语表示的映射
  • 4.4 优化策略
  • 4.5 实验及结果分析
  • 4.5.1 系统流程和实验方案
  • 4.5.2 实验结果及分析
  • 4.5.3 小结
  • 5 基于统计优选的语义单元自动分解
  • 5.1 句对聚类
  • 5.1.1 层级聚类
  • 5.1.2 相似度的计算
  • 5.2 比较分解
  • 5.2.1 相似性假设
  • 5.2.2 异同比较分解法
  • 5.3 统计优选
  • 5.3.1 统计模型
  • 5.3.2 参数训练
  • 5.3.3 多属性决策
  • 5.4 迭代分解
  • 5.5 实验及结果分析
  • 5.5.1 实验的设计
  • 5.5.2 实验结果及分析
  • 5.5.3 小结
  • 5.5.4 举例
  • 5.6 自动获取方法的比较
  • 6 总结和展望
  • 参考文献
  • 创新点摘要
  • 攻读博士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].语义偏离:20世纪90年代诗歌表意方式之一[J]. 长沙理工大学学报(社会科学版) 2020(01)
    • [2].例谈词语语义重复的问题[J]. 课外语文 2015(12)
    • [3].“状态”的语义偏移研究[J]. 绥化学院学报 2016(12)
    • [4].值得注意的语义赘余现象[J]. 语数外学习(初中版八年级) 2008(09)
    • [5].试析“上”“下”虚化引起的语义趋同[J]. 汉字文化 2020(01)
    • [6].从“壁咚”一词谈“~咚”的语义泛化[J]. 才智 2017(06)
    • [7].英汉语义重合实现句法成分联结的认知机制[J]. 外文研究 2019(03)
    • [8].试论汉语意义化修辞格的语义逻辑机制[J]. 辽宁工业大学学报(社会科学版) 2020(05)
    • [9].“反而”复句中的语义逻辑关系[J]. 沧州师范学院学报 2015(03)
    • [10].“东西”说略[J]. 语文学刊 2013(20)
    • [11].谈修辞中的语义和谐律[J]. 大理学院学报 2012(11)
    • [12].程度副词“比较”的语义和语法特征分析[J]. 大庆师范学院学报 2015(05)
    • [13].“A就A”构式的语义不自足性探讨[J]. 贵州师范学院学报 2020(04)
    • [14].“吃瓜群众”语义泛化探析[J]. 阜阳师范学院学报(社会科学版) 2019(02)
    • [15].音乐姿态的语义分析刍议[J]. 天津音乐学院学报 2018(03)
    • [16].“X而Y之”构件语义特征分析[J]. 浙江理工大学学报(社会科学版) 2017(05)
    • [17].怒族谚语的语义特征探析[J]. 牡丹江大学学报 2015(11)
    • [18].作为称谓的N_1+N_2式定中粘合结构的语义模式[J]. 现代语文 2018(01)
    • [19].基于语义的建筑施工图分析与理解[J]. 门窗 2014(01)
    • [20].隐喻类谚语的语义认知与功能[J]. 贵州工程应用技术学院学报 2020(01)
    • [21].汉英动物熟语语义差异探析[J]. 汉字文化 2019(04)
    • [22].面向方面程序的动态语义研究[J]. 计算机科学 2018(08)
    • [23].海量数据机器单词中关键语义筛选方法研究[J]. 现代电子技术 2017(06)
    • [24].一种渐进式论辩语义的论证博弈模型[J]. 计算机科学 2017(04)
    • [25].浅析中国山水画的审美语义[J]. 艺术品鉴 2015(12)
    • [26].信息组织中的语义关系概念及类型[J]. 图书馆工作与研究 2013(11)
    • [27].试论语义的有效实现[J]. 中国科教创新导刊 2011(14)
    • [28].路网环境下的语义多样性位置隐私保护方法[J]. 计算机工程与应用 2020(07)
    • [29].称人量词语义特征的跨语言考察[J]. 民族语文 2017(01)
    • [30].浅析跨文化交际中的中西方语义误解[J]. 基础教育研究 2011(12)

    标签:;  ;  ;  

    语义单元自动获取研究
    下载Doc文档

    猜你喜欢