文本分类的特征选择和分类方法研究

文本分类的特征选择和分类方法研究

论文摘要

随着网络上的信息量迅速的增加,如何有效的处理和组织这些文本数据,成为当前研究的重要课题,文本分类是其中的核心课题之一。文本分类的任务是在给定类别标签的前提下,根据文本的内容对文本进行分类。文本分类在自然语言处理与理解、信息检索、内容信息过滤等领域都有着广泛的应用。目前文本分类的模型已经趋近成熟,但并不是说已经到达完美的状态,仍然是有一些问题需要改进。文本分类中关键的两个部分是特征降维和分类方法,特征降维的方法分为特征选择和特征抽取两类。本文从机器学习的角度出发,主要关注点在特征选择方法和分类方法的研究。关于特征选择方法的研究,基于信息论熵性质提出了一种新的特征选择方法。该方法对特征定义两个概念用于特征过滤:样本熵、类别熵。方法结合现有的特征选择方法如互信息等使用,迭代的使用样本熵和类别熵过滤特征项,得到维数更小的特征子集,但在分类应用的时候却能取得更好分类效果。关于分类方法的研究,考虑到SVM良好的性能和集成学习的优点,提出了一种改进的SVM集成方法。该方法基于已有的SVM集成方法,结合文本分类问题的特性,在SVM训练和结果集成上进行了改进。该方法在不同的特征空间上训练多个SVM。对样本分类的时候,根据样本在不同特征空间上可分性选择一个SVM对其进行分类。实验证明,该方法能取得比单个SVM更优的分类结果。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 论文背景
  • 1.2 文本分类概念
  • 1.3 研究目的与意义
  • 1.3.1 信息过滤
  • 1.3.2 邮件分类
  • 1.3.3 信息组织
  • 1.4 研究现状及挑战
  • 1.4.1 特征处理
  • 1.4.2 SVM相关技术研究
  • 1.4.3 数据集不平衡问题
  • 1.4.4 多层次分类问题
  • 1.5 主要工作与创新点
  • 第2章 文本分类技术简介
  • 2.1 文本的表示
  • 2.2 降维模型简介
  • 2.3 特征选择
  • 2.3.1 文档频数
  • 2.3.2 信息增益
  • 2.3.3 期望交叉熵
  • 2.3.4 胜算比
  • 2.3.5 互信息
  • 2.3.6 卡方统计
  • 2.3.7 相关系数
  • 2.4 特征抽取
  • 2.4.1 主成分分析
  • 2.4.2 线性判别分析
  • 2.4.3 潜在语义索引
  • 2.4.4 特征聚类
  • 2.5 分类模型
  • 2.5.1 贝叶斯模型
  • 2.5.2 KNN模型
  • 2.5.3 决策树
  • 2.5.4 支持向量机
  • 2.5.5 集成学习
  • 2.6 评估方法
  • 2.7 本章小结
  • 第3章 SCFS特征选择方法
  • 3.1 SCFS方法模型介绍
  • 3.2 实验及实验分析
  • 3.2.1 数据集与实验设置
  • 3.2.2 实验一
  • 3.2.3 实验二
  • 3.2.4 实验三
  • 3.2.5 实验总结
  • 3.3 本章小结
  • 第4章 针对文本分类的改进SVM集成方法
  • 4.1 分类器构造与集成
  • 4.2 集成有效性
  • 4.3 SVM集成
  • 4.4 针对文本分类的改进SVM集成方法
  • 4.5 实验结果及分析
  • 4.6 本章小结
  • 第5章 总结与展望
  • 5.1 主要工作与特色
  • 5.2 进一步的工作
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    标签:;  ;  ;  

    文本分类的特征选择和分类方法研究
    下载Doc文档

    猜你喜欢