层次化蒙古语语言模型的构建研究

层次化蒙古语语言模型的构建研究

论文摘要

语言模型是描述自然语言内在规律的数学模型,它广泛地应用于机器翻译、语音识别和文本校对等领域。近几年,基于语料库的统计语言模型的构造技术成为新的研究热点,统计语言模型也已逐渐成为自然语言处理的主流技术之一。我国蒙古语语言模型技术还缺少很多相关的研究,这也间接影响少数民族地区信息化建设的进程。本文对统计语言模型的相关技术进行了探讨,并对蒙古语的特点进行了分析。根据蒙古语典型的构形词缀的特点,通过深入挖掘蒙古语词干和词缀之间的依赖关系来提高语言模型对蒙古语描述的准确性。具体方法是将蒙古语语言模型分为三个层次,分别是词干和词干的依赖、词干和词缀的依赖、词缀和词缀的依赖。在这三个层次上分别构造合适的语言模型,然后再把它们结合起来成为一个完整的适合于蒙古语的语言模型。本文最后把这种层次化的蒙古语语言模型方案应用到了一个基于实例的汉蒙机器翻译系统中,实验证明本文所构造的层次化的蒙古语语言模型能够有效地提高汉蒙机器翻译的效果。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 图表目录
  • 第一章 绪论
  • 1.1 引言
  • 1.2 本文研究的背景
  • 1.2.1 语言模型的研究概况
  • 1.2.2 蒙古语语言的特点
  • 1.2.3 蒙古语语言模型的研究现状
  • 1.3 本论文的研究概况
  • 1.3.1 研究内容
  • 1.3.2 研究意义和章节安排
  • 第二章 语言模型的理论基础
  • 2.1 基于知识的语言模型
  • 2.2 统计语言模型
  • 2.2.1 统计语言模型的基本思想
  • 2.2.2 N-gram模型
  • 2.3 统计语言模型的优缺点
  • 第三章 层次化蒙古语语言模型的构建
  • 3.1 N元模型在蒙古语上的应用
  • 3.2 蒙古语语言模型的总体构架
  • 3.3 语句生成概率计算的不同方案及比较分析
  • 3.3.1 词干-词干层和词缀-词缀层的构建方案
  • 3.3.2 词干-词缀层的构建方案
  • 3.4 模型参数的训练
  • 3.4.1 词干-词干层和词缀-词缀层的参数训练
  • 3.4.2 词干和词缀关系的参数训练
  • 3.5 不同方案的比较和分析
  • 3.5.1 实验结果比较
  • 3.5.2 结果分析
  • 3.6 层次化模型存在的问题
  • 第四章 语言模型的平滑
  • 4.1 统计语言模型数据稀疏问题
  • 4.2 统计语言模型的平滑算法
  • 4.2.1 Good-Turing平滑
  • 4.2.2 线形插值法
  • 4.2.3 交叉校验参数平滑
  • 4.2.4 回退模型(back-off model)
  • 4.2.5 Katz's平滑
  • 4.3 层次化蒙古语语言模型的平滑
  • 4.3.1 平滑算法比较
  • 4.3.2 平滑效果的评价
  • 第五章 语言模型的评价
  • 5.1 语言模型的评价方法
  • 5.1.1 在应用系统中评价
  • 5.1.2 利用交叉熵或困惑度评价
  • 5.2 基于机器翻译系统的评价
  • 5.2.1 评价方法
  • 5.2.2 Mong-SMT系统简介
  • 5.2.3 实验过程和结果
  • 5.3 层次化蒙古语语言模型的性能分析
  • 第六章 结论与展望
  • 6.1 结论
  • 6.2 进一步的工作
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].量子语言模型研究综述[J]. 中国科学:信息科学 2018(11)
    • [2].神经语言模型在框架排歧中的应用[J]. 广西民族师范学院学报 2017(03)
    • [3].基于层次语言模型的英语动名词搭配纠错策略[J]. 计算机系统应用 2017(09)
    • [4].基于软聚类的模糊类语言模型[J]. 军事通信技术 2015(01)
    • [5].统计语言模型浅析[J]. 科技风 2015(12)
    • [6].基于位置语言模型的中文信息检索系统的研究[J]. 计算机科学 2015(07)
    • [7].现代藏语信息熵的估算及语言模型的复杂度[J]. 电子技术与软件工程 2020(17)
    • [8].基于深度预训练语言模型的文献学科自动分类研究[J]. 情报学报 2020(10)
    • [9].基于扩展N元文法模型的快速语言模型预测算法[J]. 自动化学报 2012(10)
    • [10].应用于信息检索的统计语言模型研究进展[J]. 情报理论与实践 2008(03)
    • [11].基于神经网络语言模型的作者身份验证[J]. 情报理论与实践 2020(03)
    • [12].基于范畴论的形式语言模型建模方法研究[J]. 计算机应用与软件 2015(04)
    • [13].模糊语言模型在唇读系统中的应用[J]. 信号处理 2015(10)
    • [14].结合语义的位置语言模型[J]. 北京大学学报(自然科学版) 2013(02)
    • [15].基于统计语言模型的英语易读性研究[J]. 解放军外国语学院学报 2010(06)
    • [16].对IRSTLM的分析和改进[J]. 心智与计算 2008(01)
    • [17].文本词向量与预训练语言模型研究[J]. 上海电力大学学报 2020(04)
    • [18].面向语言模型的神经元连接自动学习方法[J]. 厦门大学学报(自然科学版) 2019(02)
    • [19].神经网络语言模型的结构与技术研究评述[J]. 现代计算机 2019(19)
    • [20].三元统计语言模型对基因表达载体设计的优化[J]. 计算机工程与应用 2016(15)
    • [21].基于统计语言模型的信息检索演进探析[J]. 图书情报知识 2010(03)
    • [22].基于文本分类的语义平滑在语言模型中的应用(英文)[J]. 成都信息工程学院学报 2008(03)
    • [23].基于预训练语言模型的中文零指代消解[J]. 信息通信 2020(05)
    • [24].基于改进主题分布特征的神经网络语言模型[J]. 电子与信息学报 2018(01)
    • [25].泛化语言模型在汉维机器翻译中的应用[J]. 计算机应用研究 2014(10)
    • [26].领域语言模型及其在中文输入系统中的应用[J]. 计算机应用与软件 2012(08)
    • [27].触发式语言模型下的混淆网络解码方法[J]. 计算机工程与应用 2011(10)
    • [28].基于聚类语言模型的生物文献检索技术研究[J]. 中文信息学报 2008(01)
    • [29].一个语言模型压缩方法的研究与实践[J]. 苏州大学学报(工科版) 2008(03)
    • [30].基于机器语言模型的小区开放对道路影响问题研究[J]. 数学建模及其应用 2018(04)

    标签:;  ;  ;  ;  ;  

    层次化蒙古语语言模型的构建研究
    下载Doc文档

    猜你喜欢