贝叶斯同语言模型相结合的中文文本分类方法的研究

贝叶斯同语言模型相结合的中文文本分类方法的研究

论文摘要

随着互联网上可用信息的日益增多,怎样快速而有效地获取有用信息成为人们研究的重要课题,信息自动分类就应运而生了。贝叶斯作为其中的一种分类方法,应用在很多领域。本文将尝试探索应用语言模型改进贝叶斯分类模型的方法。首先,我们对文本分类系统以及贝叶斯分类模型作了分析和探讨。然后,分析了贝叶斯模型的数据稀疏问题,并讨论了Laplace平滑技术的缺陷,提出了用统计语言模型来改善数据稀疏问题。接下来介绍了语言模型的三种平滑技术,分别是Jelinek-Mercer平滑技术、Dirichlet平滑技术以及绝对折扣法。最终,针对Jelinek-Mercer提出一种改进的平滑技术。本文最主要的工作是将统计语言模型的四种平滑技术应用于贝叶斯分类器当中。通过实验,找到了最优的平滑参数。最后得出如下结论:使用四种平滑技术改进后的贝叶斯分类模型的性能都优于朴素贝叶斯分类模型的性能,特别是采用了改进平滑尺度的Jelinek-Mercer平滑技术后,分类器的性能得到较大改善。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 图表目录
  • 第一章 绪论
  • 1.1 课题背景
  • 1.2 国内外研究现状
  • 1.2.1 文本自动分类技术研究在国内外的发展
  • 1.2.2 文本自动分类技术的研究现状
  • 1.3 研究内容和论文结构
  • 1.3.1 研究内容
  • 1.3.2 论文结构
  • 第二章 文本分类系统技术概述
  • 2.1 文本分类的概念
  • 2.2 文本分类的步骤
  • 第三章 相关理论与技术
  • 3.1 贝叶斯理论与贝叶斯模型
  • 3.1.1 贝叶斯理论的产生、研究意义和研究现状
  • 3.1.2 贝叶斯定理
  • 3.1.3 朴素贝叶斯分类器
  • 3.1.4 贝叶斯文本分类器的优点和缺陷
  • 3.2 统计语言模型
  • 3.2.1 概述
  • 3.2.2 N-gram模型
  • 3.2.3 语言模型中的平滑技术
  • 3.2.3.1 平滑技术的含义
  • 3.2.3.2 主要的平滑方法
  • 第四章 应用统计语言模型改进NB分类模型的设计和实现
  • 4.1 系统的开发平台与环境
  • 4.2 系统框架
  • 4.3 语料库和性能评价
  • 4.3.1 语料库
  • 4.3.2 性能评价标准
  • 4.4 改进的分类器设计
  • 4.4.1 模型的提出
  • 4.4.2 分类器实现框图
  • 第五章 实验和结果
  • 5.1 改进后的分类器的参数选择
  • 5.2 改进后的分类器与朴素贝叶斯的性能比较
  • 第六章 总结和进一步的工作
  • 6.1 论文总结
  • 6.2 进一步研究工作
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].量子语言模型研究综述[J]. 中国科学:信息科学 2018(11)
    • [2].神经语言模型在框架排歧中的应用[J]. 广西民族师范学院学报 2017(03)
    • [3].基于层次语言模型的英语动名词搭配纠错策略[J]. 计算机系统应用 2017(09)
    • [4].基于软聚类的模糊类语言模型[J]. 军事通信技术 2015(01)
    • [5].统计语言模型浅析[J]. 科技风 2015(12)
    • [6].基于位置语言模型的中文信息检索系统的研究[J]. 计算机科学 2015(07)
    • [7].现代藏语信息熵的估算及语言模型的复杂度[J]. 电子技术与软件工程 2020(17)
    • [8].基于深度预训练语言模型的文献学科自动分类研究[J]. 情报学报 2020(10)
    • [9].基于扩展N元文法模型的快速语言模型预测算法[J]. 自动化学报 2012(10)
    • [10].应用于信息检索的统计语言模型研究进展[J]. 情报理论与实践 2008(03)
    • [11].基于神经网络语言模型的作者身份验证[J]. 情报理论与实践 2020(03)
    • [12].基于范畴论的形式语言模型建模方法研究[J]. 计算机应用与软件 2015(04)
    • [13].模糊语言模型在唇读系统中的应用[J]. 信号处理 2015(10)
    • [14].结合语义的位置语言模型[J]. 北京大学学报(自然科学版) 2013(02)
    • [15].基于统计语言模型的英语易读性研究[J]. 解放军外国语学院学报 2010(06)
    • [16].对IRSTLM的分析和改进[J]. 心智与计算 2008(01)
    • [17].文本词向量与预训练语言模型研究[J]. 上海电力大学学报 2020(04)
    • [18].面向语言模型的神经元连接自动学习方法[J]. 厦门大学学报(自然科学版) 2019(02)
    • [19].神经网络语言模型的结构与技术研究评述[J]. 现代计算机 2019(19)
    • [20].三元统计语言模型对基因表达载体设计的优化[J]. 计算机工程与应用 2016(15)
    • [21].基于统计语言模型的信息检索演进探析[J]. 图书情报知识 2010(03)
    • [22].基于文本分类的语义平滑在语言模型中的应用(英文)[J]. 成都信息工程学院学报 2008(03)
    • [23].基于预训练语言模型的中文零指代消解[J]. 信息通信 2020(05)
    • [24].基于改进主题分布特征的神经网络语言模型[J]. 电子与信息学报 2018(01)
    • [25].泛化语言模型在汉维机器翻译中的应用[J]. 计算机应用研究 2014(10)
    • [26].领域语言模型及其在中文输入系统中的应用[J]. 计算机应用与软件 2012(08)
    • [27].触发式语言模型下的混淆网络解码方法[J]. 计算机工程与应用 2011(10)
    • [28].基于聚类语言模型的生物文献检索技术研究[J]. 中文信息学报 2008(01)
    • [29].一个语言模型压缩方法的研究与实践[J]. 苏州大学学报(工科版) 2008(03)
    • [30].基于机器语言模型的小区开放对道路影响问题研究[J]. 数学建模及其应用 2018(04)

    标签:;  ;  ;  ;  ;  

    贝叶斯同语言模型相结合的中文文本分类方法的研究
    下载Doc文档

    猜你喜欢