Print

支持向量机在Web文本分类中的分析与应用

论文摘要

随着web信息量的激增,网络上的信息呈指数级增长,堪称世界上最大的信息资源。如何有效地对各式各样的Web文本进行有效分类,以便人们能快速准确地获取所需的信息,已成为网络应用的一个重要的研究领域.因此,人们需要自动文本分类技术来实现对web信息资源的规划及利用。支持向量机(SVM)是由Vapnik等人提出的一种机器学习技术,是借助于最优化方法解决机器学习问题的新工具。支持向量机拥有严格的理论基础,采用结构风险最小化原则,使风险只与输入样本数目有关,而与输入的维数无关,从而避免了“维数灾难”,具有较好的泛化能力。因此,SVM作为一种可以在Web文本信息上广泛应用的自动分类方法正受到研究者的重视。本文阐述了Web挖掘的有关理论,给出了Web文本分类的一般处理过程,包括文本预处理,特征提取等,重点研究了基于二叉树的多类SVM分类算法,并在结合一种基于模糊隶属关系预抽取训练样本的方法上,使用与二叉决策树相结合的SVM构造了一个多类别Web文本分类原型系统。实验证明在保证分类器性能的情况下,可以允许我们适当地选择训练样本,从而提高SVM的训练和测试速度,而基于二叉树的多分类结构更可以提高分类的效率,较之传统的分类算法,取得了更高运行效率。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 引言
  • 1.1 背景
  • 1.2 Web文本分类的国内外研究现状
  • 1.3 本文的内容安排
  • 第二章 Web文本分类技术
  • 2.1 Web文本分类
  • 2.1.1 文本分类任务
  • 2.1.2 文本分类描述
  • 2.2 Web文本预处理
  • 2.3 文本分类模型
  • 2.4 文本分词
  • 2.5 文本特征选择
  • 2.5.1 特征提取的定义
  • 2.5.2 文本特征选择的方法
  • 2.6 本章小结
  • 第三章 支持向量机理论
  • 3.1 分类挖掘概述
  • 3.2 支持向量机
  • 3.2.1 线性SVM
  • 3.2.2 非线性SVM
  • 3.3 训练算法
  • 3.4 SVM优缺点
  • 3.5 本章小结
  • 第四章 SVM分类器的扩展
  • 4.1 单分类器融合成多分类器
  • 4.1.1 各种融合方法介绍
  • 4.1.2 SVM分类器的融合
  • 4.2 本文中要解决的问题
  • 4.2.1 基于二叉树的多类支持向量机原理及算法描述
  • 4.2.2 存在的问题
  • 4.3 二叉树多类支持向量机改进
  • 4.3.1 几种改进策略
  • 4.4 本章小结
  • 第五章 系统的设计与实验分析
  • 5.1 Web文本分类过程及常见方法
  • 5.1.1 文本分类系统处理流程
  • 5.1.2 常用分类算法
  • 5.1.3 分类器评价
  • 5.2 多类分类问题改进思想
  • 5.2.1 预抽取训练样本
  • 5.2.2 系统设计
  • 5.3 分类实验与结果分析
  • 5.3.1 数据集介绍
  • 5.3.2 实验环境
  • 5.3.3 结果与分析
  • 5.4 本章小结
  • 第六章 总结和展望
  • 6.1 总结
  • 6.2 未来展望
  • 参考文献
  • 致谢
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/d7c989bf0d56c91ed1bcf02f.html