论文摘要
随着Internet的发展,大量的电子文本信息涌现,如何在这些信息中掌握对人们有用的信息已成为当前的热点课题。文本自动分类帮助人们解决了这个问题。自动文本分类是信息处理的主要研究内容,它在文本识别、电子政务、搜索引擎、信息过滤等领域有着广泛和深入的应用。提高文本分类的准确率对现实应用具有重要意义。本文采用支持向量机方法实现文本分类。相比较传统的分类方法,该方法在求解小样本、非线性、高维空间等问题上表现出了较好的性能。支持向量机根据结构风险最小化原则,具有全局最优解,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力并能有效地解决“过学习”问题。通过研究可知基于支持向量机的分类器具有很好的推广能力和较好的分类精确性,即使训练样本很少,分类系统也可以达到很高的准确率。本文介绍了中文文本分类的基本过程和主要技术,如文本的表示及特征提取等。重点研究支持向量机分类算法及影响其分类效果的因素,通过实验分析基于不同核函数进行分类的效果,并据此设计了一个多分类支持向量机分类器,实现了文本分类。文本预处理部分,分词采用的是ICTCLAS词法分析系统,在特征选择部分结合了文档频率和互信息算法,有效地去除了它们的缺点。核函数构造的核心是参数的优选,在此采用了网格搜索法实现核函数参数优选,以期达到最佳分类效果。该系统的评测结果显示,经过改进的分类系统的分类效果和准确率明显提高。
论文目录
摘要ABSTRACT创新点摘要前言第一章 支持向量机的理论基础1.1 统计学习理论基础1.1.1 学习问题的表示1.1.2 三个基本统计学习问题1.2 经验风险最小化1.3 复杂性与推广能力1.4 统计学习理论的核心内容1.4.1 学习过程一致性的条件1.4.2 VC 维1.4.3 推广性的界1.4.4 结构风险最小化1.5 小结第二章 文本分类的关键技术研究2.1 文本分类的过程研究2.2 文本表示2.3 特征选择2.3.1 文档频率2.3.2 信息增益2.3.3 互信息2 统计量'>2.3.4 χ2统计量2.3.5 期望交叉熵2.3.6 文本证据权2.4 特征选择方法的比较研究2.5 特征加权算法2.6 性能评估方法2.7 几种常用的文本分类方法2.7.1 朴素贝叶斯方法2.7.2 K-近邻方法2.7.3 中心向量方法2.8 文本分类方法的比较研究2.9 小结第三章 用支持向量机实现文本分类3.1 二分类支持向量机的研究3.1.1 支持向量机对线性可分样本分类3.1.2 支持向量机对非线性可分样本分类3.1.3 核函数3.2 实现技术3.2.1 分块算法3.2.2 分解算法3.2.3 SVMLight3.2.4 序贯最小优化算法3.3 多分类支持向量机的研究3.4 支持向量机文本分类器的设计3.5 小结第四章 实验数据分析结论与展望参考文献发表文章目录致谢详细摘要
相关论文文献
标签:文本分类论文; 支持向量机论文; 特征提取论文; 网格搜索论文;