统计和规则相结合的语言模型在中文输入法中的应用研究

统计和规则相结合的语言模型在中文输入法中的应用研究

论文摘要

随着计算机与互联网的广泛普及,语言信息处理的社会需求日益增大,人们迫切需要用自动化的手段处理海量的语言信息。在这种情形下,作为智能化人机接口重要组成部分的汉字键盘输入技术成为中文信息处理的研究热点之一。在汉字键盘输入法研究中,统计语言模型因其鲁棒性强、简洁、易实现等特点而得到广泛应用。但统计语言模型本身存在数据稀疏性、领域依赖性、规模过大以及解码速度慢等问题。同时,单纯基于统计的语言模型较少地考虑词义、语义、上下文关系等语言规则,造成模型应用结果不合理,影响了输入法的性能。针对以上问题,本文研究了统计和规则相结合的语言模型,并将其应用于输入法。在语言模型平滑和压缩方面,本文采用基于图灵估计的减值法和Katz法结合的方法对模型进行平滑,采用基于单元重要性的方法缩小模型规模;在语言规则提取方面,本文基于语义场来提取词网中词类特定的搭配规则;在语言模型领域依赖方面,本文采用基础语言模型和用户模型相结合的方法来实现语言模型的自适应;在实现方面,本文给出了基于词网格最优路径搜索算法,实现输入序列到输出序列转换过程的高效和输出结果的合理性。通过引入语言规则,本文在一定程度上弥补了统计语言模型的缺陷,在笔画输入法中的应用实践表明,本文工作有效地提高了语言模型的解码准确率和性能。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 语言信息处理现状
  • 1.2 汉字输入现状
  • 1.3 课题的研发目的、意义及本文主要工作
  • 1.4 本文结构安排
  • 第二章 语言模型与隐马尔柯夫模型
  • 2.1 语言模型
  • 2.1.1 信息论与语言模型
  • 2.1.2 基于统计的语言模型
  • 2.1.3 N 元文法
  • 2.1.4 语言模型的进展和未来
  • 2.2 隐马尔柯夫模型
  • 2.2.1 马尔柯夫链和马尔柯夫模型
  • 2.2.2 隐马尔柯夫模型及其应用
  • 2.3 本章小结
  • 第三章 隐马尔柯夫模型与规则结合应用于输入法
  • 3.1 语言模型建立
  • 3.1.1 字词库的建立
  • 3.1.2 隐马尔柯夫模型应用于输入法
  • 3.1.3 语言模型的平滑
  • 3.1.4 语言模型的压缩
  • 3.2 语言模型建立规则
  • 3.2.1 词类
  • 3.2.2 词网构成
  • 3.2.3 基于语义场的规则提取
  • 3.2.4 基于语义场的规则的应用
  • 3.2.5 基础语言模型和用户模型相结合的自适应方法
  • 3.3 词网格最优路径搜索算法
  • 3.4 本章小结
  • 第四章 语言模型模拟及评测
  • 4.1 用户模型
  • 4.2 性能评测
  • 4.3 仿真结果及分析
  • 第五章 结束语
  • 致谢
  • 参考文献
  • 攻读硕士学位期间的研究成果
  • 相关论文文献

    • [1].量子语言模型研究综述[J]. 中国科学:信息科学 2018(11)
    • [2].神经语言模型在框架排歧中的应用[J]. 广西民族师范学院学报 2017(03)
    • [3].基于层次语言模型的英语动名词搭配纠错策略[J]. 计算机系统应用 2017(09)
    • [4].基于软聚类的模糊类语言模型[J]. 军事通信技术 2015(01)
    • [5].统计语言模型浅析[J]. 科技风 2015(12)
    • [6].基于位置语言模型的中文信息检索系统的研究[J]. 计算机科学 2015(07)
    • [7].现代藏语信息熵的估算及语言模型的复杂度[J]. 电子技术与软件工程 2020(17)
    • [8].基于深度预训练语言模型的文献学科自动分类研究[J]. 情报学报 2020(10)
    • [9].基于扩展N元文法模型的快速语言模型预测算法[J]. 自动化学报 2012(10)
    • [10].应用于信息检索的统计语言模型研究进展[J]. 情报理论与实践 2008(03)
    • [11].基于神经网络语言模型的作者身份验证[J]. 情报理论与实践 2020(03)
    • [12].基于范畴论的形式语言模型建模方法研究[J]. 计算机应用与软件 2015(04)
    • [13].模糊语言模型在唇读系统中的应用[J]. 信号处理 2015(10)
    • [14].结合语义的位置语言模型[J]. 北京大学学报(自然科学版) 2013(02)
    • [15].基于统计语言模型的英语易读性研究[J]. 解放军外国语学院学报 2010(06)
    • [16].对IRSTLM的分析和改进[J]. 心智与计算 2008(01)
    • [17].文本词向量与预训练语言模型研究[J]. 上海电力大学学报 2020(04)
    • [18].面向语言模型的神经元连接自动学习方法[J]. 厦门大学学报(自然科学版) 2019(02)
    • [19].神经网络语言模型的结构与技术研究评述[J]. 现代计算机 2019(19)
    • [20].三元统计语言模型对基因表达载体设计的优化[J]. 计算机工程与应用 2016(15)
    • [21].基于统计语言模型的信息检索演进探析[J]. 图书情报知识 2010(03)
    • [22].基于文本分类的语义平滑在语言模型中的应用(英文)[J]. 成都信息工程学院学报 2008(03)
    • [23].基于预训练语言模型的中文零指代消解[J]. 信息通信 2020(05)
    • [24].基于改进主题分布特征的神经网络语言模型[J]. 电子与信息学报 2018(01)
    • [25].泛化语言模型在汉维机器翻译中的应用[J]. 计算机应用研究 2014(10)
    • [26].领域语言模型及其在中文输入系统中的应用[J]. 计算机应用与软件 2012(08)
    • [27].触发式语言模型下的混淆网络解码方法[J]. 计算机工程与应用 2011(10)
    • [28].基于聚类语言模型的生物文献检索技术研究[J]. 中文信息学报 2008(01)
    • [29].一个语言模型压缩方法的研究与实践[J]. 苏州大学学报(工科版) 2008(03)
    • [30].基于机器语言模型的小区开放对道路影响问题研究[J]. 数学建模及其应用 2018(04)

    标签:;  ;  ;  ;  ;  

    统计和规则相结合的语言模型在中文输入法中的应用研究
    下载Doc文档

    猜你喜欢