基于意群的文本分类方法研究

基于意群的文本分类方法研究

论文摘要

文本分类是信息检索与数据挖掘领域的研究热点与核心技术,在网页分类、新闻出版的栏目分类、个性化新闻、垃圾邮件过滤、SNS用户分类、微博用户分类等方面有着非常重要的应用,因此对其进行深入的研究具有非常重要的实用价值。本文首先介绍了文本分类技术在国内外的一些研究现状和研究成果;接着探讨了文本分类的相关技术,主要包括文本分类中一些常用的特征选择方法和进行文本分类时使用的一些常用分类算法,对其中每一种算法均进行了深入的研究论证,阐述其中每种方法适用的情况和不适用的情况,同时分析了各种方法的优缺点;然后陈述了意群的概念及其相关方法,论证了通过意群概念及其方法去构建类别词库的可行性,推导出通过类别词库去构建相应的文本分类器,包括基于意群的SVM文本分类器和基于意群的朴素贝叶斯文本分类器,从而可以使用这些分类器对待测文本进行分类;最后是对所提出的方法按详细步骤进行实验,研究结果表明,基于意群的SVM文本分类方法在性能上比普通SVM方法要好,但是基于意群的Bayes方法在性能上并没有朴素Bayes方法好。因此对于基于意群的文本分类方法,若能选用合适的分类算法,则在准确率和召回率上,就能达到比较好的效果。本文在研究了文本分类的一些通用算法的基础上,提出了基于意群的文本分类方法,而且严格论证了该方法的可行性,这在文本分类领域具有一定的推动作用。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 文本分类的研究现状
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.3 论文的章节安排
  • 第二章 文本分类技术
  • 2.1 文本分类概述
  • 2.2 文本文档的表示
  • 2.3 文本的特征选择
  • 2.3.1 文档频率
  • 2.3.2 信息增益
  • 2.3.3 互信息
  • 2统计量'>2.3.4 χ2统计量
  • 2.3.5 期望交叉熵
  • 2.3.6 文本证据权
  • 2.3.7 优势率
  • 2.4 文本的分类算法
  • 2.4.1 朴素贝叶斯方法
  • 2.4.2 决策树方法
  • 2.4.3 KNN方法
  • 2.4.4 人工神经网络法
  • 2.4.5 支持向量机方法
  • 第三章 基于意群的文本分类方法研究
  • 3.1 意群与概念
  • 3.2 意群方法
  • 3.3 类别词库的建立
  • 3.4 基于意群的分类方法
  • 3.4.1 基于意群的SVM方法
  • 3.4.2 基于意群的朴素贝叶斯方法
  • 第四章 文本分类性能评估及实验结果分析
  • 4.1 文本分类的性能评估方法
  • 4.2 基于意群的文本分类实验
  • 4.2.1 基于意群的SVM分类方法的实验
  • 4.2.2 基于意群的Bayes方法的实验
  • 4.3 实验结果分析
  • 第五章 结论与展望
  • 5.1 论文主要成果
  • 5.2 展望
  • 参考文献
  • 致谢
  • 研究成果及发表的学术论文
  • 作者和导师简介
  • 附件
  • 相关论文文献

    • [1].基于自身特征扩展的短文本分类方法[J]. 计算机应用研究 2017(04)
    • [2].利用类-项权重和类-项密度的文本分类方法[J]. 计算机工程与设计 2017(08)
    • [3].基于卷积神经网络的配电网缺陷文本分类方法[J]. 信息技术 2020(06)
    • [4].基于深度学习的录音文本分类方法[J]. 浙江大学学报(工学版) 2020(07)
    • [5].基于BiLSTM-Attention-CNN混合神经网络的文本分类方法[J]. 计算机应用与软件 2020(09)
    • [6].一种多特征融合的长文本分类方法[J]. 中国电子科学研究院学报 2020(09)
    • [7].基于注意机制的短文本分类方法[J]. 电脑知识与技术 2020(28)
    • [8].网络的简监督文本分类方法[J]. 计算机与网络 2012(17)
    • [9].基于机器学习的文本分类方法综述[J]. 渤海大学学报(自然科学版) 2010(02)
    • [10].增强领域特征的电力审计文本分类方法[J]. 计算机应用 2020(S1)
    • [11].一种结合云模型的文本分类方法[J]. 计算机工程与应用 2014(15)
    • [12].基于重要事件的文本分类方法研究[J]. 微电子学与计算机 2012(03)
    • [13].新的基于簇划分文本分类方法[J]. 计算机工程与设计 2009(06)
    • [14].独立于语种的文本分类方法[J]. 计算机工程与科学 2008(06)
    • [15].基于字词特征自注意力学习的社交媒体文本分类方法[J]. 模式识别与人工智能 2020(04)
    • [16].一种基于情感特征的短文本分类方法[J]. 计算机与现代化 2020(07)
    • [17].基于卷积神经网络的互联网短文本分类方法[J]. 计算机与现代化 2017(04)
    • [18].一种基于半监督学习的短文本分类方法[J]. 现代图书情报技术 2013(02)
    • [19].一种基于嵌入式注意力机制的文本分类方法[J]. 软件 2020(06)
    • [20].基于语义距离的文本分类方法[J]. 计算机技术与发展 2013(01)
    • [21].基于商空间的向量空间模型文本分类方法[J]. 计算机应用 2011(S2)
    • [22].高效的信任机制线性文本分类方法[J]. 计算机工程与设计 2010(10)
    • [23].一种基于特征扩展的中文短文本分类方法[J]. 计算机应用 2009(03)
    • [24].中文文本分类方法综述[J]. 网络与信息安全学报 2019(05)
    • [25].融合词语类别特征和语义的短文本分类方法[J]. 计算机工程与科学 2017(02)
    • [26].基于迁移学习的实时多类别文本分类方法研究[J]. 四川文理学院学报 2015(02)
    • [27].文本分类方法在网络舆情分析系统中的应用研究[J]. 情报科学 2015(05)
    • [28].基于融合特征的商品文本分类方法研究[J]. 情报理论与实践 2020(11)
    • [29].一种舆情分析中的文本分类方法[J]. 信息技术 2013(03)
    • [30].一种基于特征投票的文本分类方法[J]. 计算机工程 2010(09)

    标签:;  ;  ;  ;  ;  

    基于意群的文本分类方法研究
    下载Doc文档

    猜你喜欢