基于支持向量机的文本分类系统研究

基于支持向量机的文本分类系统研究

论文摘要

随着Internet的发展,大量的电子文本信息涌现,如何在这些信息中掌握对人们有用的信息已成为当前的热点课题。文本自动分类帮助人们解决了这个问题。自动文本分类是信息处理的主要研究内容,它在文本识别、电子政务、搜索引擎、信息过滤等领域有着广泛和深入的应用。提高文本分类的准确率对现实应用具有重要意义。本文采用支持向量机方法实现文本分类。相比较传统的分类方法,该方法在求解小样本、非线性、高维空间等问题上表现出了较好的性能。支持向量机根据结构风险最小化原则,具有全局最优解,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力并能有效地解决“过学习”问题。通过研究可知基于支持向量机的分类器具有很好的推广能力和较好的分类精确性,即使训练样本很少,分类系统也可以达到很高的准确率。本文介绍了中文文本分类的基本过程和主要技术,如文本的表示及特征提取等。重点研究支持向量机分类算法及影响其分类效果的因素,通过实验分析基于不同核函数进行分类的效果,并据此设计了一个多分类支持向量机分类器,实现了文本分类。文本预处理部分,分词采用的是ICTCLAS词法分析系统,在特征选择部分结合了文档频率和互信息算法,有效地去除了它们的缺点。核函数构造的核心是参数的优选,在此采用了网格搜索法实现核函数参数优选,以期达到最佳分类效果。该系统的评测结果显示,经过改进的分类系统的分类效果和准确率明显提高。

论文目录

  • 摘要
  • ABSTRACT
  • 创新点摘要
  • 前言
  • 第一章 支持向量机的理论基础
  • 1.1 统计学习理论基础
  • 1.1.1 学习问题的表示
  • 1.1.2 三个基本统计学习问题
  • 1.2 经验风险最小化
  • 1.3 复杂性与推广能力
  • 1.4 统计学习理论的核心内容
  • 1.4.1 学习过程一致性的条件
  • 1.4.2 VC 维
  • 1.4.3 推广性的界
  • 1.4.4 结构风险最小化
  • 1.5 小结
  • 第二章 文本分类的关键技术研究
  • 2.1 文本分类的过程研究
  • 2.2 文本表示
  • 2.3 特征选择
  • 2.3.1 文档频率
  • 2.3.2 信息增益
  • 2.3.3 互信息
  • 2 统计量'>2.3.4 χ2统计量
  • 2.3.5 期望交叉熵
  • 2.3.6 文本证据权
  • 2.4 特征选择方法的比较研究
  • 2.5 特征加权算法
  • 2.6 性能评估方法
  • 2.7 几种常用的文本分类方法
  • 2.7.1 朴素贝叶斯方法
  • 2.7.2 K-近邻方法
  • 2.7.3 中心向量方法
  • 2.8 文本分类方法的比较研究
  • 2.9 小结
  • 第三章 用支持向量机实现文本分类
  • 3.1 二分类支持向量机的研究
  • 3.1.1 支持向量机对线性可分样本分类
  • 3.1.2 支持向量机对非线性可分样本分类
  • 3.1.3 核函数
  • 3.2 实现技术
  • 3.2.1 分块算法
  • 3.2.2 分解算法
  • 3.2.3 SVMLight
  • 3.2.4 序贯最小优化算法
  • 3.3 多分类支持向量机的研究
  • 3.4 支持向量机文本分类器的设计
  • 3.5 小结
  • 第四章 实验数据分析
  • 结论与展望
  • 参考文献
  • 发表文章目录
  • 致谢
  • 详细摘要
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于支持向量机的文本分类系统研究
    下载Doc文档

    猜你喜欢