英汉人名音译方法的研究与实现

英汉人名音译方法的研究与实现

论文摘要

机器音译包括人名,地名,机构名和组织名等专有名词的音译,是自然语言处理中一个重要问题,在机器翻译,跨语言信息检索等应用中有很重要的作用。机器音译是按照发音将源语言中的词自动翻译成目标语言中的词。本文在总结出基于语音的机器音译的不足的基础上,提出了两种机器音译的方法:基于字形的音译方法和机器翻译的方法。本文从以下几个方面介绍:1.本文首先介绍了基于字形的音译框架,并在该框架下分析比较了两种音译模型:噪声通道模型和n-gram音译模型,得出了n-gram音译模型比噪声通道模型包含了更多的上下文信息。2.本文在利用传统的EM算法进行音译单元对齐的基础上,首次提出了基于音节首字母匹配的对齐方法,总结了7条常见的英汉首字母匹配的启发式规则。并将两种对齐方法应用到英语和汉语音译单元的对齐上,比较了两种对齐算法对机器音译性能的影响。实验结果显示,基于音节首字母匹配的对齐算法优于EM对齐算法。3.本文研究了如何将viterbi算法应用到英语到汉语和汉语到英语的两个方向的解码上。并利用基于字形的音译框架和n-gram音译模型,采用基于音节首字母匹配的对齐算法进行音译单元的对齐,使用viterbi解码,实现了一个英汉双向人名音译系统。4.除此之外,本文将名字看成伪句子,利用统计机器翻译的思想进行音译。统计机器翻译利用对数线性模型。实验结果显示,统计机器翻译的方法更适合于机器音译,因为机器音译是按照发音顺序进行音译的,因此没有调序过程。并且对数线性模型的方法在增加模型的特征时很方便,因此有很大的改进空间。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题提出
  • 1.2 研究现状
  • 1.3 相关工作
  • 1.3.1 基于模块化概率模型的日英音译
  • 1.3.2 基于规则的英汉音译
  • 1.3.3 基于决策树的英韩双向音译
  • 1.3.4 基于双流(Bi-Stream)HMM对数线性块模型的阿英音译
  • 1.3.5 基于信源通道的英汉音译
  • 1.4 本文主要研究内容
  • 1.5 本文结构组织
  • 第二章 DOM英汉音译方法
  • 2.1 基于字形的DOM音译框架的描述
  • 2.1.1 符号定义
  • 2.1.2 公式表示
  • 2.2 音译模型
  • 2.2.1 DOM下的n-gram音译模型
  • 2.2.2 DOM下的噪声通道模型
  • 2.3 两种音译模型的比较
  • 2.4 本章小结
  • 第三章 音译单元的对齐
  • 3.1 英汉名字的所有对齐方式
  • 3.2 EM算法在英汉音译单元上对齐的应用
  • 3.2.1 EM算法基本原理
  • 3.2.2 问题描述
  • 3.2.3 EM算法实现
  • 3.3 基于音节首字母匹配的对齐
  • 3.3.1 基于音节首字母匹配的音译单元对齐方法
  • 3.3.2 启发式规则
  • 3.4 两种对齐算法的比较
  • 3.5 实验
  • 3.5.1 实验语料
  • 3.5.2 评价标准
  • 3.5.3 实验结果
  • 3.5.4 结果分析
  • 3.6 本章小结
  • 第四章 解码
  • 4.1 viterbi算法解码
  • 4.1.1 C2E状态转换图
  • 4.1.2 viterbi解码分析
  • 4.1.3 viterbi在C2E中的实现
  • 4.2 平滑算法
  • 4.3 E2C解码
  • 4.3.1 英语名字的切分
  • 4.3.2 E2C状态转换图
  • 4.3.4 E2C的viterbi实现
  • 4.4 C2E和E2C的解码比较
  • 4.5 实验
  • 4.5.1 英汉双向音译系统
  • 4.5.2 实验语料
  • 4.5.3 实验结果
  • 4.5.4 结果分析
  • 4.6 本章小结
  • 第五章 利用统计机器翻译的方法实现音译
  • 5.1 音译模型
  • 5.2 语言模型
  • 5.3 解码
  • 5.4 系统评价
  • 5.5 权重训练模型
  • 5.6 实验
  • 5.6.1 实验工具与语料
  • 5.6.2 实验中间数据
  • 5.6.3 实验结果
  • 5.6.4 结果比较与分析
  • 5.6.5 两个音译模型的比较
  • 5.7 本章小结
  • 第六章 总结与展望
  • 6.1 本文总结
  • 6.2 未来研究方向
  • 参考文献
  • 攻读学位期间本人公开发表的论文
  • 致谢
  • 详细摘要
  • 相关论文文献

    • [1].从绰科拉到巧克力:音译的道路漫长——四谈音译[J]. 东方翻译 2016(01)
    • [2].基于心理美学的外国人名音译变异研究[J]. 现代语文(学术综合版) 2017(04)
    • [3].浅论“音译附加表意成分”型外来词的语素问题[J]. 语文学刊 2010(18)
    • [4].封面解读[J]. 半月选读 2010(09)
    • [5].从“埃博拉”看汉语音译词的音译例外现象[J]. 佳木斯职业学院学报 2016(11)
    • [6].术语音译及其肇因[J]. 西安航空学院学报 2017(04)
    • [7].基于字形与语音的音译单元对齐方法[J]. 北京大学学报(自然科学版) 2016(01)
    • [8].世界[J]. 东方企业家 2016(05)
    • [9].晒幸福的艺术[J]. 新一代 2014(05)
    • [10].从文化的角度分析外来词音译的特点及其发展趋势[J]. 作家 2009(14)
    • [11].音译词拾趣[J]. 小学生必读(高年级版) 2009(06)
    • [12].论汉语音译的步骤与译音汉字选择[J]. 中国科技翻译 2020(04)
    • [13].后殖民时代音译术语的特征及应用[J]. 云南师范大学学报(对外汉语教学与研究版) 2012(04)
    • [14].基于音节首字母匹配的音译单元对齐方法[J]. 江南大学学报(自然科学版) 2009(06)
    • [15].论科技外来词的音译[J]. 中国科技翻译 2008(03)
    • [16].从汉语语音角度看音译[J]. 湖南城市学院学报 2008(05)
    • [17].英汉机器音译系统对比研究[J]. 北京大学学报(自然科学版) 2017(02)
    • [18].论英汉音译之用字原则[J]. 湖南人文科技学院学报 2016(01)
    • [19].西夏文献中的音译原则[J]. 西夏研究 2016(03)
    • [20].小心无处不在的瑜伽伤害[J]. 中华养生保健 2008(09)
    • [21].英汉音译规律探微[J]. 盐城师范学院学报(人文社会科学版) 2014(04)
    • [22].认知隐喻在英语音译中的应用[J]. 重庆三峡学院学报 2012(02)
    • [23].新闻报道中的品牌音译策略[J]. 新闻爱好者 2011(06)
    • [24].地名音译与国家主权形象——以“涉南海问题立场文件”为例[J]. 广东职业技术教育与研究 2016(06)
    • [25].后殖民下当代西方主流媒体中的汉语音译借词研究——以英、美、澳媒为例[J]. 海外英语 2017(07)
    • [26].轮、困还是苯? 有机化合物命名用字音译原则之由来[J]. 科学世界 2016(04)
    • [27].模因论视角下品牌名称汉译中的音译原则探析[J]. 湖南第一师范学院学报 2014(01)
    • [28].基于优选论的外国人名在两岸汉语中的音译变异研究[J]. 浙江树人大学学报(人文社会科学版) 2014(04)
    • [29].浅论粤方言中的外来词[J]. 文学界(理论版) 2012(03)
    • [30].音译在中医名词术语英译中的应用[J]. 文学教育(上) 2012(08)

    标签:;  ;  ;  ;  ;  

    英汉人名音译方法的研究与实现
    下载Doc文档

    猜你喜欢