基于支持向量机的文本分类研究

基于支持向量机的文本分类研究

论文摘要

随着信息技术的发展,互联网数据及资源呈现海量特征,而且,越来越多的信息以电子文本的形式存在。为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类技术是信息检索和文本挖掘的重要基础,近年来逐渐成为人们研究的热点问题。本文对文本分类整个过程中涉及到的每个步骤进行了深入研究,包括预处理、文本表示、特征提取、分类算法以及性能评估。对于中文文本分类,到目前为止,尚没有标准的中文语料库可供使用。因此,自己动手收集文献标题作为语料库,并对典型的特征提取算法和分类算法进行了实验对比研究。实验结果表明支持向量机是目前分类性能最好的方法。为进一步提高文本分类的准确率,使用潜在语义索引获得原始词-文档矩阵的潜在语义结构。通过使用潜在语义索引和不使用潜在语义索引的对比实验发现,在文本分类中,使用潜在语义索引的效果并不理想,这是因为潜在语义索引在进行奇异值分解过程中没有充分考虑分类信息。为解决该问题,提出了一种改进的局部潜在语义索引方法,利用支持向量机的分类优势来产生局部区域,这样选择的局部区域,能够更好地表示某类文档的潜在语义结构,从而提高了分类的准确率。标准的支持向量机是针对两类分类问题设计的,不能直接用于多类分类问题。为使支持向量能够进行多类分类,必须对支持向量机进行扩展。二叉树方法是一种常用的多类分类方法,而它的关键问题在于如何构造合理的结构以获得较高的推广能力。为解决该问题,按照Huffman树的构造过程自下向上地构造二叉树,使易于分割的类处于上层结点,从而构造了合理的二叉树结构。

论文目录

  • 摘要
  • Abstract
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 概述
  • 1.2 国内外研究现状
  • 1.3 作者的主要工作
  • 1.4 论文内容简介
  • 第2章 文本分类相关技术
  • 2.1 文本预处理
  • 2.2 文本表示
  • 2.2.1 向量空间模型
  • 2.2.2 特征项权重计算方法
  • 2.2.3 影响权重的信息
  • 2.3 特征选择
  • 2.3.1 文档频率
  • 2.3.2 信息增益
  • 2.3.3 互信息
  • 2统计量'>2.2.4 x2统计量
  • 2.2.5 特征权
  • 2.4 分类方法
  • 2.4.1 朴素贝叶斯
  • 2.4.2 类中心向量
  • 2.4.3 k近邻
  • 2.4.4 支持向量机
  • 2.4.5 最大熵模型
  • 2.5 分类性能评估
  • 2.5.1 单类赋值
  • 2.5.2 多类排序
  • 第3章 中文语料上的实验对比研究
  • 3.1 语料库
  • 3.2 实验设置
  • 3.3 特征选择方法实验对比研究
  • 3.4 文本分类方法实验对比研究
  • 3.5 小结
  • 第4章 基于SVM与LSI相结合的文本分类研究
  • 4.1 潜在语义索引
  • 4.2 LSI的实验结果分析
  • 4.3 一种基于SVM的局部LSI文本分类方法
  • 4.3.1 局部LSI
  • 4.3.2 基于SVM的局部LSI(SVM-LLSI)
  • 4.3.3 实验及结果分析
  • 4.4 小结
  • 第5章 基于HuffMan树的多类SVM研究
  • 5.1 多类SVM方法
  • 5.1.1 One-vs-Rest
  • 5.1.2 One-vs-one
  • 5.1.3 DAGSVM
  • 5.1.4 二叉树方法
  • 5.l.S ECOC-SVM方法
  • 5.2 基于Huffman树的多类SVM方法
  • 5.3 实验及结果分析
  • 5.4 小结
  • 总结与展望
  • 参考文献
  • 致谢
  • 附录A 攻读硕士学位期间所发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于支持向量机的文本分类研究
    下载Doc文档

    猜你喜欢