基于互信息的文本自动分类特征选择方法研究

基于互信息的文本自动分类特征选择方法研究

论文摘要

当今社会,伴随着各种电子形式文本的大量出现,如何在众多电子形式的资源中准确而快速的找到人们需要的信息,成为当前信息处理领域的一个研究热点。文本自动分类技术的出现在一定程度上缓解了上述问题。本文对文本自动分类相关技术进行了基础性的研究,如文本分词、特征选择、文本表示模型、文本分类算法等,重点研究分析了互信息特征选择方法,发现传统互信息方法在进行特征选择时没有考虑特征项在文本集中出现的频率和特征项在类内的分布信息,致使文本分类性能较低。为了提高传统互信息方法的分类性能,本文引入类内平均频度和类内分散度两个因素对传统互信息方法进行改进,为了验证改进后的互信息方法有效可行,采用了一个集分词、去停用词、特征选择、文本分类多重功能于一体的开源文本自动分类系统对改进后的互信息方法进行文本分类实验,并和传统互信息方法、文本分类性能较好的其他特征选择方法在同等条件下进行分类实验效果对比,结果表明改进后的互信息方法的分类性能确实有所提高,验证了本文对传统互信息方法的改进是有效可行的。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 文本自动分类技术研究的背景、目的和意义
  • 1.2 文本自动分类技术的研究现状
  • 1.3 本文的主要内容与论文结构
  • 第二章 文本自动分类相关技术
  • 2.1 文本自动分类的定义
  • 2.2 文本自动分类模型
  • 2.3 文本分词技术
  • 2.3.1 基于字符串匹配的分词方法
  • 2.3.2 基于统计的分词方法
  • 2.4 去停用词
  • 2.5 文本的特征选择
  • 2.5.1 文本频度法
  • 2.5.2 文本证据权
  • 2.5.3 互信息
  • 2.5.4 信息增益
  • 2.5.5 期望交叉熵
  • 2.5.6 CHI 统计
  • 2.6 文本表示模型
  • 2.7 文本分类算法
  • 2.7.1 类中心向量法
  • 2.7.2 K 近邻算法
  • 2.8 本章小结
  • 第三章 互信息方法的改进
  • 3.1 传统的互信息方法
  • 3.1.1 传统互信息方法的缺陷
  • 3.2 改进的互信息方法
  • 3.2.1 类内平均频度
  • 3.2.2 类内分散度
  • 3.2.3 改进后的互信息方法
  • 3.3 本章小结
  • 第四章 实验与结果分析
  • 4.1 实验环境
  • 4.2 文本自动分类的评估指标
  • 4.3 语料库
  • 4.4 文本预处理
  • 4.5 文本分类
  • 4.5.1 实验的分类算法
  • 4.6 实验结果及分析
  • 4.7 本章小结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 下一步工作展望
  • 参考文献
  • 研究生期间发表论文
  • 致谢
  • 相关论文文献

    • [1].文本自动分类技术研究综述[J]. 情报理论与实践 2012(02)
    • [2].一种面向专利文献数据的文本自动分类方法[J]. 计算机应用 2008(01)
    • [3].中文文本自动分类技术的研究[J]. 理工高教研究 2008(04)
    • [4].基于数据挖掘的文本自动分类仿真研究[J]. 计算机仿真 2011(12)
    • [5].网络环境下文本自动分类方法研究综述[J]. 鸡西大学学报 2009(05)
    • [6].中文文本自动分类中特征词选择算法研究[J]. 硅谷 2009(20)
    • [7].文本自动分类研究——基于径向基函数[J]. 情报科学 2013(05)
    • [8].文本自动分类新探究[J]. 赤峰学院学报(自然科学版) 2011(04)
    • [9].一种面向专利信息的文本自动分类算法[J]. 科技创新导报 2009(15)
    • [10].非均衡数据下基于卷积神经网络的专利文本自动分类研究[J]. 文献与数据学报 2020(03)
    • [11].中文文本自动分类中的特征选择改进与研究[J]. 工业控制计算机 2012(11)
    • [12].一种基于粗糙集文本自动分类的改进算法[J]. 计算机工程与应用 2011(24)
    • [13].文本自动分类算法的比较与研究[J]. 电脑知识与技术 2009(05)
    • [14].文本自动分类关键技术研究[J]. 微计算机信息 2008(06)
    • [15].一个中文文本自动分类器的设计[J]. 计算机应用与软件 2008(04)
    • [16].政媒融合问政平台非正式文本自动分类匹配研究[J]. 情报理论与实践 2020(06)
    • [17].数字文本自动分类中特征语义关联及加权策略研究综述与展望[J]. 现代图书情报技术 2016(09)
    • [18].基于TAN的文本自动分类框架[J]. 计算机工程 2010(16)
    • [19].基于CCIPCA-LSSVM的文本自动分类算法[J]. 科学技术与工程 2013(10)
    • [20].企业经营范围文本自动分类方法探究[J]. 标准科学 2012(01)
    • [21].基于量子自组织网络的Web文本自动分类方法[J]. 情报科学 2009(01)
    • [22].用于APP的缺陷文本自动分类与质量保证方法[J]. 电力系统及其自动化学报 2020(07)
    • [23].基于FastText的专利文本自动分类方法研究[J]. 仪器仪表标准化与计量 2020(04)
    • [24].基于机器学习的Web文本自动分类[J]. 软件导刊 2011(01)
    • [25].文本自动分类研究进展[J]. 软件导刊 2008(04)
    • [26].一种学科题目文本自动分类方法[J]. 中国索引 2015(04)
    • [27].基于word2vec的专利文本自动分类研究[J]. 信息技术 2020(02)
    • [28].一种基于词上下文向量的文本自动分类方法[J]. 情报科学 2008(07)
    • [29].基于KNN和SVM的中文文本自动分类研究[J]. 情报科学 2011(09)
    • [30].基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J]. 图书情报知识 2010(04)

    标签:;  ;  ;  

    基于互信息的文本自动分类特征选择方法研究
    下载Doc文档

    猜你喜欢