Print

基于多语种平行语料库的机器辅助翻译系统

论文摘要

随着国际交流的日益频繁,翻译行业蓬勃发展,在翻译行业中进行了越来越多的信息化建设,其中最为突出的是引入了机器翻译和机器辅助翻译产品,以及将翻译流程管理信息化,用于替代或者辅助人的活动,这些工作已经可以在一定程度上提高翻译行业的效率。同时在国内有许多的大学、研究机构从事机器翻译或者机器辅助翻译的研究,取得了丰硕的研究成果,但是成果产品化不够,特别是辅助翻译产品,由于需要大量的语料资源,其软件不能在大规模真实语料下进行测试,因而限制了整个软件的质量。通过与中国对外翻译出版公司合作,在其30多年来不断积累的文献的基础上,该文构建出了一个大型的多语种平行语料库,通过规范构建过程以及操作过程,既保证了语料库的规模,也确保了语料的质量。在已有资源的基础之上,将开发一个机器辅助翻译软件,用来提高翻译人员的工作效率。本文阐述了构建一个语料库的流程和用到的关键算法,设计了一个辅助翻译软件,实现了关键的算法。其中关于中文文本查重的算法综合了汉语语言学的研究成果,提出了一种提取中文文本特征串的方法。在辅助翻译软件的设计过程中,将基于翻译记忆库技术的辅助翻译引擎看成一个基于全文索引的搜索引擎,以便提供相同或者相似的句子的译文给译员参考,通过对中文句子进行“分字”的方法,扩展了关于中文处理中“分词”的概念,从而可以按照统一的方式处理中文和其它字符体系语种的索引问题,保证了辅助翻译软件对于语种的可扩充性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 课题来源
  • 1.3 相关技术简介
  • 1.3.1 机器翻译简介
  • 1.3.2 机器辅助翻译系统
  • 1.3.3 语料库和语料库语言学简介
  • 1.4 本文主要研究内容
  • 1.5 本文结构安排
  • 第2章 构建多语种平行语料库
  • 2.1 文件预处理
  • 2.1.1 中文文本查重的双因子相似度算法
  • 2.2 文件对齐
  • 2.3 语料对齐
  • 2.4 语汇提取
  • 2.5 语料和语汇操作规范
  • 2.5.1 多语种翻译资源库对译语料库操作规范
  • 2.5.2 多语种翻译资源库语汇库操作规范
  • 2.6 本章小结
  • 第3章 构建计算机辅助翻译系统
  • 3.1 一个辅助翻译软件应该提供的功能
  • 3.1.1 翻译过程
  • 3.1.2 自动建库
  • 3.1.3 术语管理
  • 3.1.4 多语种间双向互译
  • 3.1.5 自动排版
  • 3.2 整体框架图
  • 3.2.1 资源导入/导出工具
  • 3.2.2 建立索引工具
  • 3.3 基于翻译记忆库技术的辅助翻译引擎的关键算法
  • 3.3.1 查找相同或者相似的句子
  • 3.3.2 查找已有的语汇
  • 3.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 致谢
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/b535b043a17bb457d1b13a76.html