论文摘要
随着网络上的信息量迅速的增加,如何有效的处理和组织这些文本数据,成为当前研究的重要课题,文本分类是其中的核心课题之一。文本分类的任务是在给定类别标签的前提下,根据文本的内容对文本进行分类。文本分类在自然语言处理与理解、信息检索、内容信息过滤等领域都有着广泛的应用。目前文本分类的模型已经趋近成熟,但并不是说已经到达完美的状态,仍然是有一些问题需要改进。文本分类中关键的两个部分是特征降维和分类方法,特征降维的方法分为特征选择和特征抽取两类。本文从机器学习的角度出发,主要关注点在特征选择方法和分类方法的研究。关于特征选择方法的研究,基于信息论熵性质提出了一种新的特征选择方法。该方法对特征定义两个概念用于特征过滤:样本熵、类别熵。方法结合现有的特征选择方法如互信息等使用,迭代的使用样本熵和类别熵过滤特征项,得到维数更小的特征子集,但在分类应用的时候却能取得更好分类效果。关于分类方法的研究,考虑到SVM良好的性能和集成学习的优点,提出了一种改进的SVM集成方法。该方法基于已有的SVM集成方法,结合文本分类问题的特性,在SVM训练和结果集成上进行了改进。该方法在不同的特征空间上训练多个SVM。对样本分类的时候,根据样本在不同特征空间上可分性选择一个SVM对其进行分类。实验证明,该方法能取得比单个SVM更优的分类结果。
论文目录
摘要ABSTRACT第1章 绪论1.1 论文背景1.2 文本分类概念1.3 研究目的与意义1.3.1 信息过滤1.3.2 邮件分类1.3.3 信息组织1.4 研究现状及挑战1.4.1 特征处理1.4.2 SVM相关技术研究1.4.3 数据集不平衡问题1.4.4 多层次分类问题1.5 主要工作与创新点第2章 文本分类技术简介2.1 文本的表示2.2 降维模型简介2.3 特征选择2.3.1 文档频数2.3.2 信息增益2.3.3 期望交叉熵2.3.4 胜算比2.3.5 互信息2.3.6 卡方统计2.3.7 相关系数2.4 特征抽取2.4.1 主成分分析2.4.2 线性判别分析2.4.3 潜在语义索引2.4.4 特征聚类2.5 分类模型2.5.1 贝叶斯模型2.5.2 KNN模型2.5.3 决策树2.5.4 支持向量机2.5.5 集成学习2.6 评估方法2.7 本章小结第3章 SCFS特征选择方法3.1 SCFS方法模型介绍3.2 实验及实验分析3.2.1 数据集与实验设置3.2.2 实验一3.2.3 实验二3.2.4 实验三3.2.5 实验总结3.3 本章小结第4章 针对文本分类的改进SVM集成方法4.1 分类器构造与集成4.2 集成有效性4.3 SVM集成4.4 针对文本分类的改进SVM集成方法4.5 实验结果及分析4.6 本章小结第5章 总结与展望5.1 主要工作与特色5.2 进一步的工作参考文献致谢攻读学位期间发表的学术论文目录学位论文评阅及答辩情况表
相关论文文献
标签:文本分类论文; 特征选择论文; 集成学习论文;