论文摘要
随着Internet的迅速发展,信息爆炸问题也随之产生。由于Internet的开放性、动态性使得用户很难快速、准确的从网上获取所需的信息。因此如何有效的从网络上获取有价值的信息成为当前研究的热点,Web文本挖掘技术就是解决上述问题的一种方法。Web文本挖掘采用数据挖掘、机器学习、自然语言处理、信息检索和知识管理等领域的技术来处理和分析非结构或半结构化的文本,从中提取有价值的知识。目前主要的文本分类方法有:最近邻分类、贝叶斯分类、决策树、支持向量机、向量空间模型、回归模型和神经网络等。本文通过分析现有的文本分类方法的不足,提出了基于SVM的改进的Web文本分类方法。首先,本文介绍了Web数据挖掘的基本概念、分类和方法,以及现有Web文本挖掘的具体过程和相关理论。其次,本文介绍了统计学习理论的主要内容和支持向量机的基本原理,阐述了支持向量机研究和应用的现状以及所面临的问题。最后,本文将并行SVM与主动Web文本分类相结合,提出了一种改进的基于支持向量机的Web文本分类算法。该方法与普通SVM方法相比,在保证SVM分类器性能的前提下,可有效减少学习所需的样本数量。
论文目录
摘要ABSTRACT插图索引附表索引第一章 绪论1.1 课题的研究意义1.2 国内外研究现状1.3 课题背景知识1.4 本文的主要工作1.5 本文的组织结构第二章 Web 文本挖掘概述2.1 引言2.2 Web 文本的预处理2.2.1 Web 文本的特征表示2.2.2 Web 文本特征的选择2.3 Web 文本分类2.4 Web 文本聚类2.5 小结第三章 统计学习理论与支持向量机3.1 统计学习理论3.1.1 机器学习问题的基本表示3.1.2 经验风险最小化3.1.3 VC 维3.1.4 推广性的界3.1.5 结构风险最小化原理3.2 支持向量机3.2.1 最优分类超平面3.2.2 广义最优分类超平面3.2.3 支持向量机(SVM)的核函数3.2.4 多类问题中的SVM3.2.5 SVM 的训练算法3.3 SVM 方法在文本分类中的应用3.4 小结第四章 一种改进的基于SVM 的WEB 文本分类方法4.1 SVM 的并行学习算法4.1.1 并行学习概念的提出4.1.2 w-model 算法4.1.3 Cascade SVMs 算法4.2 一种改进的并行SVM 算法4.2.1 并行筛选训练样本4.2.2 算法描述4.2.3 实验结果与分析4.3 小结第五章 主动学习在SVM 文本分类中的应用5.1 主动学习方法简介5.2 主动学习的SVM 简介5.3 一种基于负样本筛选的主动SVM 分类器5.3.1 负样本数据的筛选5.3.2 SVM 实现主动学习具体的算法描述5.3.3 文本分类实验5.3.4 实验分析5.4 小结第六章 总结和展望6.1 工作总结6.2 工作展望参考文献成果目录致谢
相关论文文献
标签:文本挖掘论文; 文本分类论文; 统计学习理论论文; 支持向量机论文; 主动学习论文;