基于trigger对的长距离蒙古语语言模型的研究

基于trigger对的长距离蒙古语语言模型的研究

论文摘要

语言模型(Language Model)是描述自然语言内在规律的数学模型,在机器翻译、语音识别、文字处理、信息检索等领域中占据着十分重要的地位。一个可靠的语言模型对于提高机器翻译系统的识别率起重要的作用。蒙古语是世界范围内有影响的民族语言,在中国许多地区广为使用。蒙古语语言模型技术在蒙古文信息处理系统中的集成和应用技术虽有了一定的发展,但主要是使用汉语、英语等语言的技术,而没有针对蒙古语本身进行大量的研究。本文结合语言模型技术方面的研究成果,将进一步探索蒙古语特点,通过增强蒙古语语言模型的性能来提高汉-蒙机器翻译系统的识别率。本文对语言模型的相关技术进行了探讨;对蒙古语语言特点进行了分析;对trigger对特点进行了分析;针对蒙古语特点结合trigger对进行长距离蒙古语语言模型设计;对平滑技术进行了分析;针对trigger的特点设计相应的KATZ平滑算法;将以上理论部分在汉-蒙机器翻译系统中进行实验。从实验结果看,基于trigger对的长距离蒙古语语言模型有较好的性能,得到了令人满意的翻译结果:在翻译节点数为300情况下bleu得分从原来的0.1761提高到0.2234;在翻译节点数为1000情况下bleu得分从原来的0.1873提高到0.2325。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 图表目录
  • 第一章 绪论
  • 1.1 语言模型研究的目的和意义
  • 1.1.1 语言模型的简介
  • 1.1.2 研究蒙古语语言模型的意义
  • 1.2 相关领域研究工作与发展动态
  • 1.2.1 语料库建设与加工
  • 1.2.2 基于语言单位的上下文统计语言模型
  • 1.2.3 数据稀疏问题
  • 1.3 本文的主要工作及论文的组织结构
  • 第二章 语言模型相关理论与技术
  • 2.1 常见语言模型构建方法
  • 2.1.1 Markov模型和状态转移矩阵
  • 2.1.2 隐Markov模型
  • 2.1.3 向量空间模型VSM
  • 2.1.4 严格匹配模型、概率模型
  • 2.1.5 基于分布理论的独立检验模型
  • 2.1.6 基于规则的语言模型
  • 2.1.7 N元模型
  • 2.2 各模型间的关系
  • 2.2.1 N-gram,Markov,隐Markov模型间的关系
  • 2.2.2 VSM和布尔模型的关系
  • 2.2.3 基于分布理论的各检验模型间的关系
  • 2.2.4 统计模型与规则模型之间的关系
  • 2.3 统计语言模型
  • 2.3.1 统计语言模型建模方法
  • 2.3.2 N-gram模型特点
  • 2.3.3 N-gram模型中的关键问题
  • 第三章 蒙古语及其语言模型的研究
  • 3.1 蒙古语语言特点
  • 3.2 蒙古语N-gram语言模型建立
  • 3.3 蒙古语N-gram语言模型与汉英等其它语言的区别
  • 第四章 基于trigger对的长距离蒙古语语言模型的建立与研究
  • 4.1 trigger对概念
  • 4.2 trigger对的应用
  • 4.3 基于trigger对的长距离蒙古语语言模型
  • 4.3.1 蒙古语统计语言模型中语料库的构建
  • 4.3.2 基于trigger对的长距离蒙古语语言模型建立及相应得分
  • 4.3.3 基于trigger对的长距离蒙古语语言模型的句长补偿
  • 4.3.4 机器翻译模型建立及得分
  • 4.3.5 基于trigger对的长距离蒙古语语言模型特点
  • 第五章 基于trigger对的长距离蒙古语语言模型的改进Katz平滑技术
  • 5.1 语言模型的平滑
  • 5.2 常见平滑技术
  • 5.2.1 添加平滑技术(Additive Smoothing)
  • 5.2.2 Good-Turing估计(Good-Turing Estimate)
  • 5.2.3 线性插值平滑
  • 5.2.4 Katz平滑技术
  • 5.2.5 绝对折扣平滑法(Absolute Discounting)
  • 5.2.6 Kneser-Ney平滑技术
  • 5.3 数据平滑技术的评价标准
  • 5.4 Katz应用于2-gram
  • 5.5 基于trigger对的改进Katz平滑技术
  • 第六章 实验
  • 6.1 实验环境
  • 6.1.1 提取语料库中的trigger对、平滑参数获取
  • 6.1.2 改进已有的汉-蒙机器翻译系统并使之测试基于trigger对的长距离蒙古语语言模型性能
  • 6.2 实验数据说明
  • 6.2.1 训练数据
  • 6.2.2 测试数据
  • 6.2.3 评价数据
  • 6.3 翻译结果的评价标准
  • 6.3.1 BLEU评价标准
  • 6.3.2 NIST评价标准
  • 6.4 进行基于trigger对的改进Katz平滑的必要性实验
  • 6.5 基于trigger对的长距离蒙古语语言模型测试比较实验
  • 6.5.1 最大值相乘法
  • 6.5.2 取和相乘法
  • 6.5.3 取和平均值相乘法
  • 6.5.4 测试小结
  • 第七章 结论与未来研究方向
  • 7.1 总结
  • 7.2 工作展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].量子语言模型研究综述[J]. 中国科学:信息科学 2018(11)
    • [2].神经语言模型在框架排歧中的应用[J]. 广西民族师范学院学报 2017(03)
    • [3].基于层次语言模型的英语动名词搭配纠错策略[J]. 计算机系统应用 2017(09)
    • [4].基于软聚类的模糊类语言模型[J]. 军事通信技术 2015(01)
    • [5].统计语言模型浅析[J]. 科技风 2015(12)
    • [6].基于位置语言模型的中文信息检索系统的研究[J]. 计算机科学 2015(07)
    • [7].现代藏语信息熵的估算及语言模型的复杂度[J]. 电子技术与软件工程 2020(17)
    • [8].基于深度预训练语言模型的文献学科自动分类研究[J]. 情报学报 2020(10)
    • [9].基于扩展N元文法模型的快速语言模型预测算法[J]. 自动化学报 2012(10)
    • [10].应用于信息检索的统计语言模型研究进展[J]. 情报理论与实践 2008(03)
    • [11].基于神经网络语言模型的作者身份验证[J]. 情报理论与实践 2020(03)
    • [12].基于范畴论的形式语言模型建模方法研究[J]. 计算机应用与软件 2015(04)
    • [13].模糊语言模型在唇读系统中的应用[J]. 信号处理 2015(10)
    • [14].结合语义的位置语言模型[J]. 北京大学学报(自然科学版) 2013(02)
    • [15].基于统计语言模型的英语易读性研究[J]. 解放军外国语学院学报 2010(06)
    • [16].对IRSTLM的分析和改进[J]. 心智与计算 2008(01)
    • [17].文本词向量与预训练语言模型研究[J]. 上海电力大学学报 2020(04)
    • [18].面向语言模型的神经元连接自动学习方法[J]. 厦门大学学报(自然科学版) 2019(02)
    • [19].神经网络语言模型的结构与技术研究评述[J]. 现代计算机 2019(19)
    • [20].三元统计语言模型对基因表达载体设计的优化[J]. 计算机工程与应用 2016(15)
    • [21].基于统计语言模型的信息检索演进探析[J]. 图书情报知识 2010(03)
    • [22].基于文本分类的语义平滑在语言模型中的应用(英文)[J]. 成都信息工程学院学报 2008(03)
    • [23].基于预训练语言模型的中文零指代消解[J]. 信息通信 2020(05)
    • [24].基于改进主题分布特征的神经网络语言模型[J]. 电子与信息学报 2018(01)
    • [25].泛化语言模型在汉维机器翻译中的应用[J]. 计算机应用研究 2014(10)
    • [26].领域语言模型及其在中文输入系统中的应用[J]. 计算机应用与软件 2012(08)
    • [27].触发式语言模型下的混淆网络解码方法[J]. 计算机工程与应用 2011(10)
    • [28].基于聚类语言模型的生物文献检索技术研究[J]. 中文信息学报 2008(01)
    • [29].一个语言模型压缩方法的研究与实践[J]. 苏州大学学报(工科版) 2008(03)
    • [30].基于机器语言模型的小区开放对道路影响问题研究[J]. 数学建模及其应用 2018(04)

    标签:;  ;  ;  

    基于trigger对的长距离蒙古语语言模型的研究
    下载Doc文档

    猜你喜欢