基于信息增益的中文特征提取算法研究

基于信息增益的中文特征提取算法研究

论文摘要

随着网络和信息技术的飞速发展,人们可获得的知识越来越多,但是要快速、准确地定位需要的信息却越来越困难。如何在海量的信息中提取有价值的信息成为信息处理的一大热点,各种信息组织和处理的技术被提出来,文本分类技术就是其中之一。文本分类能够处理大量的文本,较大程度解决信息资源杂乱无章的现状,方便用户准确定位所需信息。文本分类涉及文本预处理、中文分词、特征选取等多个过程。其中特征词权重算法和分类算法一直是文本分类过程中的研究热点,算法的优劣将直接影响分类的效果。本文将特征词权重算法和分类算法作为重点研究对象,针对它们存在的不足进行改进。本文主要工作如下:①分析权重公式TFIDF和TF.IDF.IG。②对TF.IDF.IG的进一步分析,发现TF.IDF.IG对TFIDF的改进并不彻底,TF.IDF.IG只考虑了词语在文档集合中的分布情况,没有考虑词语在不同层次的分布情况对权重的影响。本文将从类别层次和文档层次两个层面去改进TF.IDF.IG,提出新的特征词权重计算公式。③对现有分类算法KNN进行分析,针对其在决定测试样本的类别时,把测试样本的k个最近邻等同看待的缺点,本文将模糊数学的隶属度函数引入KNN算法来改进其类别属性函数,从而区别对待测试样本的k个最近邻。④为了验证本文改进的TF.IDF.IG方法的正确性和KNN算法用于中文文本分类的效果,本文将完成两个实验:1)将改进的TF.IDF.IG权重算法和TF.IDF.IG对比实验;2)将改进的KNN算法和原始KNN分类结果比较。实验结果证明,本文改进的TF.IDF.IG算法是成功的,正确的,并且是可行的;改进KNN算法也是同样有效的。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 研究背景及意义
  • 1.2 研究现状
  • 1.3 本文研究内容及解决问题的思路
  • 1.4 本文的章节安排
  • 2 文本分类的概述
  • 2.1 文本分类过程
  • 2.2 文本表示
  • 2.3 特征提取算法
  • 2.3.1 文档频率DF(Document Frequency: DF)
  • 2.3.2 信息增益方法IG (Information Gain: IG)
  • 2.3.3 互信息方法MI(Mutual Information: MI)
  • 2.3.4 期望交叉熵ECE(Expected Cross Entropy: ECE)
  • 2 统计量(CHI)'>2.3.5 χ2统计量(CHI)
  • 2.4 常用分类方法
  • 2.4.1 KNN 分类算法(k-Nearest Neighbor )
  • 2.4.2 SVM 分类算法(Support Vector Machine)
  • 2.4.3 朴素贝叶斯分类算法(Native Bayes)
  • 2.5 文本分类的评估方法
  • 2.6 本章小结
  • 3 特征词权重算法改进
  • 3.1 经典特征词权重算法
  • 3.2 TFIDF 的不足
  • 3.3 基于信息增益的权重改进
  • 3.3.1 信息增益的定义
  • 3.3.2 使用信息增益改进权重公式
  • 3.4 本章小结
  • 4 KNN 算法的改进
  • 4.1 KNN 算法的不足
  • 4.2 改进KNN 算法
  • 4.2.1 模糊集(Fuzzy Sets)
  • 4.2.2 常用聚类算法
  • 4.2.3 使用隶属度改进KNN 算法
  • 4.3 本章小结
  • 5 实验结果与分析
  • 5.1 实验目的介绍
  • 5.2 实验介绍
  • 5.3 实验结果与分析
  • 5.3.1 对比实验
  • 5.3.2 混淆矩阵
  • 5.3.3 总体查全率、查对率、F1 值
  • 5.3.4 各个类的查全率、查对率、F1 值
  • 5.3.5 各个类的分类情况图形显示
  • 5.4 本章小结
  • 6 结论与展望
  • 6.1 本文的主要工作
  • 6.2 下一步工作的展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于信息增益的中文特征提取算法研究
    下载Doc文档

    猜你喜欢