论文摘要
随着网络和信息技术的飞速发展,人们可获得的知识越来越多,但是要快速、准确地定位需要的信息却越来越困难。如何在海量的信息中提取有价值的信息成为信息处理的一大热点,各种信息组织和处理的技术被提出来,文本分类技术就是其中之一。文本分类能够处理大量的文本,较大程度解决信息资源杂乱无章的现状,方便用户准确定位所需信息。文本分类涉及文本预处理、中文分词、特征选取等多个过程。其中特征词权重算法和分类算法一直是文本分类过程中的研究热点,算法的优劣将直接影响分类的效果。本文将特征词权重算法和分类算法作为重点研究对象,针对它们存在的不足进行改进。本文主要工作如下:①分析权重公式TFIDF和TF.IDF.IG。②对TF.IDF.IG的进一步分析,发现TF.IDF.IG对TFIDF的改进并不彻底,TF.IDF.IG只考虑了词语在文档集合中的分布情况,没有考虑词语在不同层次的分布情况对权重的影响。本文将从类别层次和文档层次两个层面去改进TF.IDF.IG,提出新的特征词权重计算公式。③对现有分类算法KNN进行分析,针对其在决定测试样本的类别时,把测试样本的k个最近邻等同看待的缺点,本文将模糊数学的隶属度函数引入KNN算法来改进其类别属性函数,从而区别对待测试样本的k个最近邻。④为了验证本文改进的TF.IDF.IG方法的正确性和KNN算法用于中文文本分类的效果,本文将完成两个实验:1)将改进的TF.IDF.IG权重算法和TF.IDF.IG对比实验;2)将改进的KNN算法和原始KNN分类结果比较。实验结果证明,本文改进的TF.IDF.IG算法是成功的,正确的,并且是可行的;改进KNN算法也是同样有效的。
论文目录
摘要ABSTRACT1 绪论1.1 研究背景及意义1.2 研究现状1.3 本文研究内容及解决问题的思路1.4 本文的章节安排2 文本分类的概述2.1 文本分类过程2.2 文本表示2.3 特征提取算法2.3.1 文档频率DF(Document Frequency: DF)2.3.2 信息增益方法IG (Information Gain: IG)2.3.3 互信息方法MI(Mutual Information: MI)2.3.4 期望交叉熵ECE(Expected Cross Entropy: ECE)2 统计量(CHI)'>2.3.5 χ2统计量(CHI)2.4 常用分类方法2.4.1 KNN 分类算法(k-Nearest Neighbor )2.4.2 SVM 分类算法(Support Vector Machine)2.4.3 朴素贝叶斯分类算法(Native Bayes)2.5 文本分类的评估方法2.6 本章小结3 特征词权重算法改进3.1 经典特征词权重算法3.2 TFIDF 的不足3.3 基于信息增益的权重改进3.3.1 信息增益的定义3.3.2 使用信息增益改进权重公式3.4 本章小结4 KNN 算法的改进4.1 KNN 算法的不足4.2 改进KNN 算法4.2.1 模糊集(Fuzzy Sets)4.2.2 常用聚类算法4.2.3 使用隶属度改进KNN 算法4.3 本章小结5 实验结果与分析5.1 实验目的介绍5.2 实验介绍5.3 实验结果与分析5.3.1 对比实验5.3.2 混淆矩阵5.3.3 总体查全率、查对率、F1 值5.3.4 各个类的查全率、查对率、F1 值5.3.5 各个类的分类情况图形显示5.4 本章小结6 结论与展望6.1 本文的主要工作6.2 下一步工作的展望致谢参考文献附录
相关论文文献
标签:特征提取论文; 特征向量论文; 向量空间模型论文; 分类算法论文;