基于粗糙集和支持向量机的文本分类方法研究

基于粗糙集和支持向量机的文本分类方法研究

论文摘要

本文首先对文本分类的发展现状及存在问题进行了系统性阐述,按文本分类的流程对文本分类相关技术进行了介绍和探讨,重点分析和研究了文本表示、特征选择技术以及文本分类算法等文本分类关键技术。本文较为系统地总结和研究了粗糙集和支持向量机的基本原理。并分别就属性约简算法、支持向量机训练和分类算法等问题加以讨论。为了更好地提高文本分类准确率,降低支持向量机分类算法的运行时间,针对文本经过预处理和文本表示后高维稀疏性的特点,本文在研究和分析了一些粗糙集属性约简算法及其存在的问题的基础上,提出了一种改进的基于属性重要度函数的属性约简算法,并将该算法和相关已有算法进行了对比分析,从理论上证明了该改进算法的有效性,算法的时间复杂性优于同类算法。结合粗糙集和支持向量机的各自优点,提出了基于粗糙集与支持向量机相结合的文本分类方法,在对文本进行特征选择后,利用改进后的粗糙集属性约简算法,对特征选择后的特征向量空间进行约简,进一步降低特征向量空间的维数,减少冗余属性对分类效果的影响,缩短支持向量机的训练时间,并据此设计和实现了一个结合粗糙集理论和支持向量机技术的文本分类实验系统,对比了降维前后分类效果,探讨了惩罚因子C的选择对分类结果的影响。实验结果表明,在文本特征向量空间的维数大于2500维情况下,采用粗糙集和支持向量机相结合的文本分类方法取得了较好的分类效果。从而从实践上证明了本文提出的改进约简算法在高维情况下是有效的。最后,对本文取得的成果以及不足进行了总结,并对下一步的研究工作进行了展望。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 引言
  • 1.1 选题背景与研究意义
  • 1.2 文本分类关键技术综述
  • 1.2.1 文本分类问题概述
  • 1.2.2 文本分类的流程
  • 1.2.3 文本分类的关键技术及难点
  • 1.3 文本分类的研究现状
  • 1.3.1 国外文本分类的研究现状
  • 1.3.2 国内文本分类的研究现状
  • 1.3.3 文本高维问题研究现状
  • 1.4 论文的研究工作
  • 1.5 论文的组织结构
  • 第2章 粗糙集理论
  • 2.1 概述
  • 2.2 粗糙集理论基本概念
  • 2.2.1 论域、概念
  • 2.2.2 信息系统、决策表
  • 2.2.3 不分明关系、基本知识、基本概念
  • 2.2.4 上近似、下近似、边界、正区域、负区域
  • 2.2.5 独立性、属性约简、相对约简、核
  • 2.2.6 分辨矩阵、分辨函数
  • 2.3 基于分辨矩阵的粗糙集经典属性约简算法
  • 2.3.1 决策表离散化
  • 2.3.2 基于分辨矩阵的经典属性约简算法思想及算法描述
  • 2.4 本章小结
  • 第3章 支持向量机理论
  • 3.1 支持向量机的特点
  • 3.2 支持向量机的研究现状
  • 3.3 支持向量机理论基础
  • 3.3.1 最优分类面
  • 3.3.2 线性支持向量机
  • 3.3.3 核函数
  • 3.3.4 非线性支持向量机
  • 3.4 本章小结
  • 第4章 改进的基于属性重要度函数的文本特征空间降维算法
  • 4.1 本文采用粗糙集理论对文本特征空间进行降维的原因
  • 4.2 粗糙集理论在文本特征空间降维前期处理
  • 4.3 经典粗糙集理论在文本特征空间降维的应用
  • 4.3.1 经典粗糙集理论在文本特征空间约简过程
  • 4.3.2 经典属性约简算法性能分析
  • 4.4 基于属性频率函数的粗糙集属性约简算法
  • 4.4.1 基于属性频率函数的粗糙集属性约简算法描述
  • 4.4.2 基于属性频率函数的粗糙集属性约简算法分析
  • 4.5 改进基于属性重要度函数的属性约简算法
  • 4.5.1 改进算法使用的相关概念
  • 4.5.2 对基于属性频率函数的粗糙集属性约简算法的改进
  • 4.5.3 改进算法在文本特征空间降维中的应用
  • 4.5.4 算法的复杂度分析与比较
  • 4.6 本章小结
  • 第5章 粗糙集和支持向量机理论相结合的文本分类系统设计与实现
  • 5.1 系统实现的目的
  • 5.2 系统开发平台与开发环境
  • 5.3 系统概要设计
  • 5.4 主要功能模块详细设计
  • 5.4.1 文本预处理模块
  • 5.4.2 文本表示模块
  • 5.4.3 文本特征降维模块
  • 5.4.4 分类器训练模块
  • 5.4.5 文本分类模块
  • 5.4.6 分类效果评价模块
  • 5.5 文本分类的实验结果及分析
  • 5.5.1 实验数据
  • 5.5.2 文本分类效果评估标准
  • 5.5.3 实验
  • 5.5.4 实验结果分析
  • 5.6 本章小结
  • 第6章 结论与展望
  • 6.1 全文总结
  • 6.1.1 理论方面
  • 6.1.2 系统设计与实现
  • 6.1.3 实验结论
  • 6.2 进一步工作方向
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于粗糙集和支持向量机的文本分类方法研究
    下载Doc文档

    猜你喜欢