论文摘要
本文首先对文本分类的发展现状及存在问题进行了系统性阐述,按文本分类的流程对文本分类相关技术进行了介绍和探讨,重点分析和研究了文本表示、特征选择技术以及文本分类算法等文本分类关键技术。本文较为系统地总结和研究了粗糙集和支持向量机的基本原理。并分别就属性约简算法、支持向量机训练和分类算法等问题加以讨论。为了更好地提高文本分类准确率,降低支持向量机分类算法的运行时间,针对文本经过预处理和文本表示后高维稀疏性的特点,本文在研究和分析了一些粗糙集属性约简算法及其存在的问题的基础上,提出了一种改进的基于属性重要度函数的属性约简算法,并将该算法和相关已有算法进行了对比分析,从理论上证明了该改进算法的有效性,算法的时间复杂性优于同类算法。结合粗糙集和支持向量机的各自优点,提出了基于粗糙集与支持向量机相结合的文本分类方法,在对文本进行特征选择后,利用改进后的粗糙集属性约简算法,对特征选择后的特征向量空间进行约简,进一步降低特征向量空间的维数,减少冗余属性对分类效果的影响,缩短支持向量机的训练时间,并据此设计和实现了一个结合粗糙集理论和支持向量机技术的文本分类实验系统,对比了降维前后分类效果,探讨了惩罚因子C的选择对分类结果的影响。实验结果表明,在文本特征向量空间的维数大于2500维情况下,采用粗糙集和支持向量机相结合的文本分类方法取得了较好的分类效果。从而从实践上证明了本文提出的改进约简算法在高维情况下是有效的。最后,对本文取得的成果以及不足进行了总结,并对下一步的研究工作进行了展望。
论文目录
摘要ABSTRACT第1章 引言1.1 选题背景与研究意义1.2 文本分类关键技术综述1.2.1 文本分类问题概述1.2.2 文本分类的流程1.2.3 文本分类的关键技术及难点1.3 文本分类的研究现状1.3.1 国外文本分类的研究现状1.3.2 国内文本分类的研究现状1.3.3 文本高维问题研究现状1.4 论文的研究工作1.5 论文的组织结构第2章 粗糙集理论2.1 概述2.2 粗糙集理论基本概念2.2.1 论域、概念2.2.2 信息系统、决策表2.2.3 不分明关系、基本知识、基本概念2.2.4 上近似、下近似、边界、正区域、负区域2.2.5 独立性、属性约简、相对约简、核2.2.6 分辨矩阵、分辨函数2.3 基于分辨矩阵的粗糙集经典属性约简算法2.3.1 决策表离散化2.3.2 基于分辨矩阵的经典属性约简算法思想及算法描述2.4 本章小结第3章 支持向量机理论3.1 支持向量机的特点3.2 支持向量机的研究现状3.3 支持向量机理论基础3.3.1 最优分类面3.3.2 线性支持向量机3.3.3 核函数3.3.4 非线性支持向量机3.4 本章小结第4章 改进的基于属性重要度函数的文本特征空间降维算法4.1 本文采用粗糙集理论对文本特征空间进行降维的原因4.2 粗糙集理论在文本特征空间降维前期处理4.3 经典粗糙集理论在文本特征空间降维的应用4.3.1 经典粗糙集理论在文本特征空间约简过程4.3.2 经典属性约简算法性能分析4.4 基于属性频率函数的粗糙集属性约简算法4.4.1 基于属性频率函数的粗糙集属性约简算法描述4.4.2 基于属性频率函数的粗糙集属性约简算法分析4.5 改进基于属性重要度函数的属性约简算法4.5.1 改进算法使用的相关概念4.5.2 对基于属性频率函数的粗糙集属性约简算法的改进4.5.3 改进算法在文本特征空间降维中的应用4.5.4 算法的复杂度分析与比较4.6 本章小结第5章 粗糙集和支持向量机理论相结合的文本分类系统设计与实现5.1 系统实现的目的5.2 系统开发平台与开发环境5.3 系统概要设计5.4 主要功能模块详细设计5.4.1 文本预处理模块5.4.2 文本表示模块5.4.3 文本特征降维模块5.4.4 分类器训练模块5.4.5 文本分类模块5.4.6 分类效果评价模块5.5 文本分类的实验结果及分析5.5.1 实验数据5.5.2 文本分类效果评估标准5.5.3 实验5.5.4 实验结果分析5.6 本章小结第6章 结论与展望6.1 全文总结6.1.1 理论方面6.1.2 系统设计与实现6.1.3 实验结论6.2 进一步工作方向致谢参考文献攻读学位期间的研究成果
相关论文文献
标签:文本分类论文; 特征选择论文; 粗糙集论文; 支持向量机论文; 属性约简论文;