基于改进的支持向量机的WEB文本挖掘技术研究

基于改进的支持向量机的WEB文本挖掘技术研究

论文摘要

随着Internet的迅速发展,信息爆炸问题也随之产生。由于Internet的开放性、动态性使得用户很难快速、准确的从网上获取所需的信息。因此如何有效的从网络上获取有价值的信息成为当前研究的热点,Web文本挖掘技术就是解决上述问题的一种方法。Web文本挖掘采用数据挖掘、机器学习、自然语言处理、信息检索和知识管理等领域的技术来处理和分析非结构或半结构化的文本,从中提取有价值的知识。目前主要的文本分类方法有:最近邻分类、贝叶斯分类、决策树、支持向量机、向量空间模型、回归模型和神经网络等。本文通过分析现有的文本分类方法的不足,提出了基于SVM的改进的Web文本分类方法。首先,本文介绍了Web数据挖掘的基本概念、分类和方法,以及现有Web文本挖掘的具体过程和相关理论。其次,本文介绍了统计学习理论的主要内容和支持向量机的基本原理,阐述了支持向量机研究和应用的现状以及所面临的问题。最后,本文将并行SVM与主动Web文本分类相结合,提出了一种改进的基于支持向量机的Web文本分类算法。该方法与普通SVM方法相比,在保证SVM分类器性能的前提下,可有效减少学习所需的样本数量。

论文目录

  • 摘要
  • ABSTRACT
  • 插图索引
  • 附表索引
  • 第一章 绪论
  • 1.1 课题的研究意义
  • 1.2 国内外研究现状
  • 1.3 课题背景知识
  • 1.4 本文的主要工作
  • 1.5 本文的组织结构
  • 第二章 Web 文本挖掘概述
  • 2.1 引言
  • 2.2 Web 文本的预处理
  • 2.2.1 Web 文本的特征表示
  • 2.2.2 Web 文本特征的选择
  • 2.3 Web 文本分类
  • 2.4 Web 文本聚类
  • 2.5 小结
  • 第三章 统计学习理论与支持向量机
  • 3.1 统计学习理论
  • 3.1.1 机器学习问题的基本表示
  • 3.1.2 经验风险最小化
  • 3.1.3 VC 维
  • 3.1.4 推广性的界
  • 3.1.5 结构风险最小化原理
  • 3.2 支持向量机
  • 3.2.1 最优分类超平面
  • 3.2.2 广义最优分类超平面
  • 3.2.3 支持向量机(SVM)的核函数
  • 3.2.4 多类问题中的SVM
  • 3.2.5 SVM 的训练算法
  • 3.3 SVM 方法在文本分类中的应用
  • 3.4 小结
  • 第四章 一种改进的基于SVM 的WEB 文本分类方法
  • 4.1 SVM 的并行学习算法
  • 4.1.1 并行学习概念的提出
  • 4.1.2 w-model 算法
  • 4.1.3 Cascade SVMs 算法
  • 4.2 一种改进的并行SVM 算法
  • 4.2.1 并行筛选训练样本
  • 4.2.2 算法描述
  • 4.2.3 实验结果与分析
  • 4.3 小结
  • 第五章 主动学习在SVM 文本分类中的应用
  • 5.1 主动学习方法简介
  • 5.2 主动学习的SVM 简介
  • 5.3 一种基于负样本筛选的主动SVM 分类器
  • 5.3.1 负样本数据的筛选
  • 5.3.2 SVM 实现主动学习具体的算法描述
  • 5.3.3 文本分类实验
  • 5.3.4 实验分析
  • 5.4 小结
  • 第六章 总结和展望
  • 6.1 工作总结
  • 6.2 工作展望
  • 参考文献
  • 成果目录
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于改进的支持向量机的WEB文本挖掘技术研究
    下载Doc文档

    猜你喜欢