支持向量机在Web文本分类中的分析与应用
论文摘要
随着web信息量的激增,网络上的信息呈指数级增长,堪称世界上最大的信息资源。如何有效地对各式各样的Web文本进行有效分类,以便人们能快速准确地获取所需的信息,已成为网络应用的一个重要的研究领域.因此,人们需要自动文本分类技术来实现对web信息资源的规划及利用。支持向量机(SVM)是由Vapnik等人提出的一种机器学习技术,是借助于最优化方法解决机器学习问题的新工具。支持向量机拥有严格的理论基础,采用结构风险最小化原则,使风险只与输入样本数目有关,而与输入的维数无关,从而避免了“维数灾难”,具有较好的泛化能力。因此,SVM作为一种可以在Web文本信息上广泛应用的自动分类方法正受到研究者的重视。本文阐述了Web挖掘的有关理论,给出了Web文本分类的一般处理过程,包括文本预处理,特征提取等,重点研究了基于二叉树的多类SVM分类算法,并在结合一种基于模糊隶属关系预抽取训练样本的方法上,使用与二叉决策树相结合的SVM构造了一个多类别Web文本分类原型系统。实验证明在保证分类器性能的情况下,可以允许我们适当地选择训练样本,从而提高SVM的训练和测试速度,而基于二叉树的多分类结构更可以提高分类的效率,较之传统的分类算法,取得了更高运行效率。
论文目录
摘要ABSTRACT目录第一章 引言1.1 背景1.2 Web文本分类的国内外研究现状1.3 本文的内容安排第二章 Web文本分类技术2.1 Web文本分类2.1.1 文本分类任务2.1.2 文本分类描述2.2 Web文本预处理2.3 文本分类模型2.4 文本分词2.5 文本特征选择2.5.1 特征提取的定义2.5.2 文本特征选择的方法2.6 本章小结第三章 支持向量机理论3.1 分类挖掘概述3.2 支持向量机3.2.1 线性SVM3.2.2 非线性SVM3.3 训练算法3.4 SVM优缺点3.5 本章小结第四章 SVM分类器的扩展4.1 单分类器融合成多分类器4.1.1 各种融合方法介绍4.1.2 SVM分类器的融合4.2 本文中要解决的问题4.2.1 基于二叉树的多类支持向量机原理及算法描述4.2.2 存在的问题4.3 二叉树多类支持向量机改进4.3.1 几种改进策略4.4 本章小结第五章 系统的设计与实验分析5.1 Web文本分类过程及常见方法5.1.1 文本分类系统处理流程5.1.2 常用分类算法5.1.3 分类器评价5.2 多类分类问题改进思想5.2.1 预抽取训练样本5.2.2 系统设计5.3 分类实验与结果分析5.3.1 数据集介绍5.3.2 实验环境5.3.3 结果与分析5.4 本章小结第六章 总结和展望6.1 总结6.2 未来展望参考文献致谢
相关论文文献
本文来源: https://www.lw50.cn/article/d7c989bf0d56c91ed1bcf02f.html