短文本分类方法研究

短文本分类方法研究

论文摘要

随着互连网的飞速发展和信息传播手段的不断进步,各种短文本数据已经源源不断地大量涌现,如文章摘要、电子邮件、网上即时消息等。为了更好的应用它们,已有不少统计分类法和机器学习方法被应用到文本分类中,且都取得了相当好的效果,这其中包括:向量空间模型、最近K邻居方法、决策树模型、朴素贝叶斯、支持向量机和神经网络等。这些方法自动化程度高、性能稳定、适应性强,并且相对于人工文本分类更加高效。本文在此基础上,对文本分类技术做了深入研究,重点针对短文本数据提出有效分类算法。主要工作和特色如下:1、对目前国内外在文本分类技术上的研究工作做了简单回顾和总结,并对其相关技术做了描述分析;2、对常用各种分类算法做重点分析研究,并通过实验比较它们的分类性能,最后表明SVM在针对短文本数据综合性能最好;3、对支持向量机做详细分析研究,为更好地进行多值分类,提出一种基于类别层次结构的SVM多值分类算法,并用实验证明其在搜索引擎应用的良好性能;4、将关联规则引入文本分类,克服了向量空间模型的缺点,提出一种基于词关联短文当分类算法——CRTA(Categorization by Rules of TermAssociation),并用实验证明其良好的性能和高效性。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 文本分类的发展
  • 1.3 文本分类的研究现状
  • 1.3.1 国外研究现状
  • 1.3.2 国内研究现状
  • 1.4 当前需突破的问题
  • 1.5 本论文研究的主要内容
  • 1.6 本文的组织结构
  • 第二章 文本分类相关技术
  • 2.1 训练文档集
  • 2.2 文档特征表示
  • 2.3 特征提取
  • 2.3.1 文档频率(DF)
  • 2.3.2 信息增益(IG)
  • 2.3.3 互信息(MI)
  • 2统计量(CHI)'>2.3.4 x2统计量(CHI)
  • 2.3.5 期望交叉熵(CE)
  • 2.4 分类算法
  • 2.5 分类评估模型
  • 2.6 小结
  • 第三章 分类算法比较
  • 3.1 最近K邻居方法(k-NN)
  • 3.2 朴素贝叶斯算法(NB)
  • 3.3 支持向量机(SVM)
  • 3.4 人工神经网络方法(ANN)
  • 3.5 决策树模型
  • 3.6 实验测试及分析
  • 3.7 小结
  • 第四章 基于支持向量机的多值分类
  • 4.1 理论基础—统计学习理论
  • 4.1.1 学习过程的一致性
  • 4.1.2 VC维和推广性的界
  • 4.1.3 结构风险最小化
  • 4.2 支持向量机
  • 4.2.1 线性支持向量机
  • 4.2.2 非线性支持向量机
  • 4.2.3 核函数
  • 4.2.4 多类支持向量机
  • 4.3 基于类别层次结构的多值分类算法
  • 4.4 实验测试与分析
  • 4.4.1 实验
  • 4.4.2 结果分析
  • 4.5 小结
  • 第五章 基于词关联的短文本分类
  • 5.1 关联规则
  • 5.2 Apriori算法
  • 5.3 基于词关联文本分类
  • 5.3.1 文本预处理
  • 5.3.2 分类的关联规则挖掘
  • 5.3.3 新文档分类
  • 5.4 实验测试与分析
  • 5.5 小结
  • 第六章 总结与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于自身特征扩展的短文本分类方法[J]. 计算机应用研究 2017(04)
    • [2].利用类-项权重和类-项密度的文本分类方法[J]. 计算机工程与设计 2017(08)
    • [3].基于卷积神经网络的配电网缺陷文本分类方法[J]. 信息技术 2020(06)
    • [4].基于深度学习的录音文本分类方法[J]. 浙江大学学报(工学版) 2020(07)
    • [5].基于BiLSTM-Attention-CNN混合神经网络的文本分类方法[J]. 计算机应用与软件 2020(09)
    • [6].一种多特征融合的长文本分类方法[J]. 中国电子科学研究院学报 2020(09)
    • [7].基于注意机制的短文本分类方法[J]. 电脑知识与技术 2020(28)
    • [8].网络的简监督文本分类方法[J]. 计算机与网络 2012(17)
    • [9].基于机器学习的文本分类方法综述[J]. 渤海大学学报(自然科学版) 2010(02)
    • [10].增强领域特征的电力审计文本分类方法[J]. 计算机应用 2020(S1)
    • [11].一种结合云模型的文本分类方法[J]. 计算机工程与应用 2014(15)
    • [12].基于重要事件的文本分类方法研究[J]. 微电子学与计算机 2012(03)
    • [13].新的基于簇划分文本分类方法[J]. 计算机工程与设计 2009(06)
    • [14].独立于语种的文本分类方法[J]. 计算机工程与科学 2008(06)
    • [15].基于字词特征自注意力学习的社交媒体文本分类方法[J]. 模式识别与人工智能 2020(04)
    • [16].一种基于情感特征的短文本分类方法[J]. 计算机与现代化 2020(07)
    • [17].基于卷积神经网络的互联网短文本分类方法[J]. 计算机与现代化 2017(04)
    • [18].一种基于半监督学习的短文本分类方法[J]. 现代图书情报技术 2013(02)
    • [19].一种基于嵌入式注意力机制的文本分类方法[J]. 软件 2020(06)
    • [20].基于语义距离的文本分类方法[J]. 计算机技术与发展 2013(01)
    • [21].基于商空间的向量空间模型文本分类方法[J]. 计算机应用 2011(S2)
    • [22].高效的信任机制线性文本分类方法[J]. 计算机工程与设计 2010(10)
    • [23].一种基于特征扩展的中文短文本分类方法[J]. 计算机应用 2009(03)
    • [24].中文文本分类方法综述[J]. 网络与信息安全学报 2019(05)
    • [25].融合词语类别特征和语义的短文本分类方法[J]. 计算机工程与科学 2017(02)
    • [26].基于迁移学习的实时多类别文本分类方法研究[J]. 四川文理学院学报 2015(02)
    • [27].文本分类方法在网络舆情分析系统中的应用研究[J]. 情报科学 2015(05)
    • [28].基于融合特征的商品文本分类方法研究[J]. 情报理论与实践 2020(11)
    • [29].一种舆情分析中的文本分类方法[J]. 信息技术 2013(03)
    • [30].一种基于特征投票的文本分类方法[J]. 计算机工程 2010(09)

    标签:;  ;  ;  ;  

    短文本分类方法研究
    下载Doc文档

    猜你喜欢