基于WEB的双语翻译对抽取方法研究

基于WEB的双语翻译对抽取方法研究

论文摘要

命名实体、术语的翻译对自然语言处理,机器翻译性能的影响越来越重要。在机器翻译领域,双语翻译词典是重要的翻译资源,但是传统的基于词典的方法很难提供大量的,实时的术语的翻译。为了取得足够好的翻译质量,前人提出了一系列自动抽取双语翻译对的方法,但早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理未登录词等问题。随着互联网的飞速发展,越来越多的双语甚至多语页面大量出现,这些页面语种不同但是表达的内容却大致相同,搜集这些页面就可形成当前比较流行的“可比较语料”。基于互联网的可比较语料包含的双语翻译对覆盖面非常广泛,从这种语料中抽取双语翻译对己成为当今信息抽取领域里的一个研究热点。本文提出的从大规模网页中抽取双语翻译对的方法是基于可比较语料的。首先从大规模的可比较语料中抽取符合匹配模式的插入语候选项,然后从得到的插入语候选项中抽取候选互译对,再利用IBM翻译模型的词对齐模型得到正确的双语三元组,从而得到最终的翻译对。实验结果显示,运用本文提出方法实现的系统,得到的翻译元组的准确率能达到95.6%。此外,本文针对IBM词对齐模型的一些缺陷,利用基于对齐语料和启发知识的词对齐技术让翻译元组的抽取的准确率最终提高到96.7%,该结果表明对齐的双语语料和可比较双语语料在研究上存在互补作用。通过本文介绍的方法,可比较语料可以补充转化为平行语料,为自然语言处理提供更多的研究资源。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 引言
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.3 研究的历史与现状
  • 1.3.1 研究历史
  • 1.3.2 研究现状
  • 1.4 本文的工作
  • 1.5 论文组织结构
  • 第二章 相关原理介绍
  • 2.1 任务分析
  • 2.2 总体流程
  • 2.3 相关知识与模型
  • 2.3.1 支持向量机
  • 2.3.2 IBM 翻译模型
  • 2.3.3 网页下载程序
  • 2.3.4 中文分词
  • 2.4 本章小节
  • 第三章 基于WEB 的双语翻译对抽取
  • 3.1 插入语及其英文翻译项的获取
  • 3.1.1 插入语的定义和识别
  • 3.1.2 插入语的选择
  • 3.1.3 插入语及其英文翻译对的获取
  • 3.2 双语翻译元组的获取
  • 3.2.1 元组的界定
  • 3.2.2 双语翻译元组抽取的实现方法
  • 3.3 本章小节
  • 第四章 元组获取方法的改进与提高
  • 4.1 基于互信息和启发知识的双语词对齐
  • 4.1.1 双语词对齐对系统的影响
  • 4.1.2 词对齐的常用方法
  • 4.1.3 基于互信息的词对齐
  • 4.2 转换词表的自动生成
  • 4.3 本章小结
  • 第五章 实验结果及分析
  • 5.1 双语翻译元组抽取实验及结果分析
  • 5.1.1 候选翻译对实验结果及分析
  • 5.1.2 双语翻译元组的实验及分析
  • 5.2 基于启发知识的双语词对齐实验及分析
  • 5.3 改进方法后的实验结果
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 攻读学位期间公开发表的论文
  • 致谢
  • 相关论文文献

    • [1].少数民族地区数学双语师范生信息素养现状及建议[J]. 开封教育学院学报 2019(11)
    • [2].全媒体时代民族地区双语播音人才培养探析——以内蒙古地区为例[J]. 职业技术教育 2019(35)
    • [3].改革开放40年我国少数民族双语教育研究热点、历史过程与展望[J]. 信阳师范学院学报(哲学社会科学版) 2020(01)
    • [4].2003年-2018年广西双语教育研究统计分析——基于知网数据的[J]. 广西民族师范学院学报 2019(06)
    • [5].珠海公共设施双语覆盖现状研究[J]. 文化学刊 2020(01)
    • [6].秘鲁双语教育的历史与现状问题研究[J]. 江苏师范大学学报(哲学社会科学版) 2020(01)
    • [7].基于国家政策导向的延边州双语教育发展改革研究[J]. 文化创新比较研究 2020(05)
    • [8].论民族地区学前双语教育目标理论与实践[J]. 教育观察 2020(04)
    • [9].双语经验对老年人认知能力的促进[J]. 区域治理 2020(03)
    • [10].“福丫头”双语绘本读物系列出版[J]. 国际汉语教育(中英文) 2020(01)
    • [11].国外双语教育理论研究及对我国双语教育的启示[J]. 民族高等教育研究 2020(01)
    • [12].语言经济学视角下广西壮汉双语教育的保护与发展[J]. 知识经济 2020(06)
    • [13].高校“英、韩双语”专业学生学习与就业概况分析[J]. 就业与保障 2020(02)
    • [14].蒙汉双语教育发展策略研究[J]. 内蒙古财经大学学报 2020(02)
    • [15].双语教育对比研究及其在中国的应用策略[J]. 教育现代化 2020(25)
    • [16].国家安全视域下的民汉双语教育[J]. 贵州民族研究 2020(05)
    • [17].香港理工大学人文学院中文及双语学系[J]. 公关世界 2020(12)
    • [18].中英双语丛书《你好,福建》荣获中宣部地方优秀外宣作品一等奖[J]. 福州大学学报(哲学社会科学版) 2020(03)
    • [19].嫩江流域少数民族基础教育双语教育研究[J]. 黑龙江民族丛刊 2020(01)
    • [20].民族地区双语数字化学校资源平台的构建[J]. 延边教育学院学报 2020(02)
    • [21].新时代民族地区要坚持依法稳妥推行双语教育——兼评《中国民族教育发展报告(2015—2018)·现实与前瞻:民族地区双语教育研究》[J]. 民族教育研究 2020(04)
    • [22].卡明斯双语教育理论解析及其在中国语境中的再审视[J]. 民族教育研究 2020(04)
    • [23].“一带一路”视域下发展少数民族地区双语教育的策略研究[J]. 科教文汇(中旬刊) 2020(07)
    • [24].藏族地区双语类学校一体化办学存在的问题及对策[J]. 科学咨询(教育科研) 2020(09)
    • [25].化工类少数民族双语生学业水平调查与提高对策——以新疆大学化学化工学院为例[J]. 广东化工 2020(17)
    • [26].中英双语播音专业英语课程设置及教学的定位与思考[J]. 科教导刊(上旬刊) 2020(08)
    • [27].延边州双语教育现状分析与对策研究[J]. 现代交际 2020(16)
    • [28].新中国少数民族双语教育的主要实践和历史经验[J]. 公关世界 2020(20)
    • [29].高校双语混合式教学法的“三大瓶颈”及其对策[J]. 产业与科技论坛 2019(19)
    • [30].我国少数民族实现双语的两大指标[J]. 贵州民族研究 2017(12)

    标签:;  ;  ;  ;  

    基于WEB的双语翻译对抽取方法研究
    下载Doc文档

    猜你喜欢