基于信息熵的文本特征加权方法研究

基于信息熵的文本特征加权方法研究

论文摘要

如何在浩瀚繁杂的文本中掌握最有用、最准确的信息,始终是信息处理技术急待解决的问题。而解决这个问题较有效的方法就是对文本文档进行分类。文本分类的优劣直接关系到人们使用文本信息的效率。对文本文档进行特征加权是提高文本分类效果简洁且有效的方法。目前,TF/IDF方法是常用的且效果较好的一种特征加权方法。但是,它也存在着没有考虑特征项在类内和类间分布问题的不足。因此,如何解决文本文档特征项在类内和类间分布不均衡是TF/IDF特征加权方法亟待解决的问题。针对传统的TF/IDF算法存在的不足,本文提出了一种基于信息熵的TF/IDF特征加权算法。该算法依据信息熵的理论知识,将文本数据集视作符合某种规律分布的信息源。通过文本文档中特征项的信息熵来度量其在文本分类中所能提供的分类信息量(即分类能力)。算法中使用信息熵来度量特征项在文本分类过程中的重要程度,并把得到的程度信息反映到文本文档特征项的权重值大小当中。为了验证所提出的基于信息熵的TF/IDF算法的合理性和有效性,本文进行了三种类型的实验。分别考虑了不同形式语料库对实验结果的影响,特征项数量对实验结果的影响,不同的分类方法对实验结果的影响。同时,将本文提出的改进算法与传统的TF/IDF算法和其他改进的TF/IDF算法的分类结果进行了对比。结果表明,本文提出的方法在宏平均Fl指标和微平均F1指标上均好于传统的TF/IDF算法和其他改进的TF/IDF算法,并且对于不均衡数据集有较好的分类效果。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 1 引言
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.3 本文的研究内容和结构
  • 1.3.1 本文的研究内容
  • 1.3.2 本文的结构
  • 1.4 本章小结
  • 2 相关理论及技术
  • 2.1 符号约定
  • 2.2 文本表示模型
  • 2.3 文本分类流程
  • 2.4 文本预处理
  • 2.5 特征提取
  • 2.6 现有特征加权方法
  • 2.6.1 布尔权重
  • 2.6.2 基于熵概念的权重
  • 2.6.3 特征频率
  • 2.6.4 TF/IDF方法
  • 2.7 文本分类方法
  • 2.7.1 Rocchio方法
  • 2.7.2 支持向量机
  • 2.7.3 KNN方法
  • 2.7.4 朴素贝叶斯方法
  • 2.8 本章小结
  • 3 基于信息熵改进的TF/IDF算法
  • 3.1 传统TF/IDF算法思想及所面临的问题
  • 3.1.1 传统TF/IDF算法思想
  • 3.1.2 传统TF/IDF算法面临的问题
  • 3.2 基于信息熵的文本特征加权算法
  • 3.2.1 信息熵
  • 3.2.2 信息熵与特征加权的联系
  • 3.2.3 基于信息熵的TF/IDF方法思想
  • 3.2.4 基于信息熵的TF/IDF方法描述
  • 3.2.5 基于信息熵的TF/IDF方法分析
  • 3.3 本章小结
  • 4 实验和性能分析
  • 4.1 实验数据集
  • 4.2 文本分类模型设计
  • 4.3 实验评估方法
  • 4.4 实验设计
  • 4.4.1 不同形式语料库对实验结果的影响
  • 4.4.2 特征项数量对实验结果的影响
  • 4.4.3 不同的分类方法对实验结果的影响
  • 4.4.4 与已有的特征加权算法比对
  • 4.5 实验结果分析
  • 4.6 本章小结
  • 5 总结及未来工作展望
  • 5.1 本文研究工作总结
  • 5.2 研究前景展望
  • 参考文献
  • 致谢
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].为文本文档添加自动保存功能[J]. 电脑迷 2012(24)
    • [2].文本文档中嵌入水印技术[J]. 计算机光盘软件与应用 2012(13)
    • [3].软件[J]. 电脑爱好者 2008(17)
    • [4].小软件助你轻松玩转文本文档[J]. 网友世界 2011(16)
    • [5].浅析基于文本文档的数字水印加密技术[J]. 现代企业教育 2013(22)
    • [6].随手拈来便利贴[J]. 电脑迷 2009(12)
    • [7].各种文本文档转音频文件及音频文件转文字[J]. 电脑知识与技术 2020(21)
    • [8].软件[J]. 电脑爱好者 2010(18)
    • [9].文出有声 护眼养神[J]. 电脑爱好者(普及版) 2010(10)
    • [10].自动过滤小文件[J]. 电脑迷 2009(04)
    • [11].利用Javascript实现文本格式化[J]. 电脑编程技巧与维护 2009(15)
    • [12].2011/11 Plus QQ群成员提取 既要免费也要简单[J]. 电脑爱好者 2011(18)
    • [13].基于文本文档的知识检索[J]. 科技经济导刊 2019(01)
    • [14].利用WinRAR实现文档合并[J]. 电脑迷 2012(16)
    • [15].乾坤大挪移,文本也转换[J]. 电脑迷 2011(18)
    • [16].云计算下海量数据挖掘的优化方法探讨[J]. 通讯世界 2019(12)
    • [17].基于不可见字符替换的信息隐藏方法研究[J]. 计算机应用与软件 2016(04)
    • [18].记得几个文字 也能搜出文本文件[J]. 电脑爱好者 2011(23)
    • [19].体验Microsoft Office 2007三项细节功能[J]. 微电脑世界 2008(01)
    • [20].面向文本分类的特征词选取方法研究与改进[J]. 中文信息学报 2015(04)
    • [21].怎么用iPod Nano看电子书?[J]. 电脑迷 2008(06)
    • [22].必须掌握的Office工作技巧[J]. 税收征纳 2013(12)
    • [23].新品抢鲜[J]. 数字通信 2008(03)
    • [24].合并N个TXT文档有妙招[J]. 网络与信息 2008(08)
    • [25].试论碑林碑石的科学定名——从文物数字化建设想起[J]. 碑林集刊 2008(00)
    • [26].一种文本文档相似性计算的方法[J]. 吉林师范大学学报(自然科学版) 2014(04)
    • [27].ISO/CD 21597-2标准简介[J]. 工程建设标准化 2018(04)
    • [28].新建菜单的征兵计划[J]. 电脑迷 2008(02)
    • [29].数字水印在数字版权保护中的应用[J]. 现代情报 2012(05)
    • [30].我看小学语文课堂“流行元素”[J]. 语文世界(教师之窗) 2013(Z1)

    标签:;  ;  ;  

    基于信息熵的文本特征加权方法研究
    下载Doc文档

    猜你喜欢