基于两类和三类支持向量机的快速多标签分类算法

论文摘要

分类问题是指通过对已知类别的样本集的学习,来预测未知类别样本的问题。对于分类问题,按样本集合中总的类别个数可分为两类分类问题和多类分类问题:按样本所拥有的标签数可分为单标签分类问题和多标签分类问题。其中多标签分类问题是指一个样本同时属于多个类别或者具有多个标签的问题,是最为复杂的分类问题之一,它包括了两类分类问题和多类分类问题。对于多标签分类问题,本文使用一种“一对一”的分解策略,将多标签分类问题分解成多个两类单标签和两类双标签的分类子问题,再分别加以处理。对于两类单标签分类子问题,使用一般的两类支持向量机分类算法进行处理,对于两类双标签分类子问题,本文提出一个基于三类支持向量机的分类算法进行处理,在算法中将同时拥有两个标签的样本看作为在正类和负类之间的混合类的样本,并使用两个平行的超平面将这三个类别的样本分开。为了提高训练速度,文中设计了针对三类支持向量机的快速算法,它是通过将大规模的二次规划问题分解成一系列的小规模的问题来完成的,并且采用对著名的SVMlight算法的修改来实现。在算法的实验部分,本文归纳了一些常用的多标签分类算法的评价准则,并在三个基准数据集酵母数据集、景象数据集和文本数据集上进行实验,与一些存在的多标签分类算法进行比较,以验证算法的性能和速度。在分类性能的比较上,没有一个多标签分类算法能够保证在所有的评价准则上都取得最优,因此本文为实验中算法的每个评价准则打分,然后比较各个算法的总得分,在与Rank-SVM、BoosTexter、AdtBoost.MH、ML-kNN、BP-MLL、BasicBP、OVR-SVM、OVO2BN-SVM、OVOC4.5、OVO-kNN和OVO-NB等众多多标签分类算法的比较中本文的算法在所有进行的实验中总得分排名都不低于第四位。在算法计算时间的比较上,对于具有23149个训练样本的文本数据集,本文的多标签分类算法比其它两种基于支持向量机的分解算法,在训练时间上要快三倍左右,在能够决定测试时间的支持向量个数上也最少。

论文目录

摘要

ABSTRACT

前言

第一章绪论

1.1 模式识别

1.1.1 模式识别的方法

1.1.2 模式识别的应用

1.2 多标签分类算法的研究现状

1.2.1 基于数据集分解的多标签方法

1.2.2 基于单个优化问题的多标签方法

第二章支持向量机

2.1 统计学习理论

2.1.1 结构风险最小化原则

2.1.2 VC维简介

2.1.3 推广性的界

2.2 支持向量机的原理

2.2.1 结构风险最小化原则的体现

2.2.2 从几何上来解释

2.3 支持向量机的数学形式

2.3.1 线性分类的情况

2.3.2 高维空间的情况

2.4 支持向量机的快速算法

2.4.1 分块算法

2.4.2 分解算法

2.4.3 SMO算法

第三章基于两类和三类SVM的多标签算法

3.1 三类支持向量机的基本原理

3.2 三类支持向量机的快速实现算法

3.3 基于两类和三类支持向量机的多标签算法

第四章实验结果与分析

4.1 多标签算法性能的评价准则

4.2 实验数据集与实验算法

4.2.1 实验数据集简介

4.2.2 实验算法简介

4.3 分类性能的比较

4.3.1 酵母数据集的实验结果

4.3.2 景象数据集的实验结果

4.3.3 文本数据集的实验结果

4.4 算法计算时间的比较

第五章总结

参考文献

致谢

已发表文章

基于两类和三类支持向量机的快速多标签分类算法

论文摘要

论文目录

相关论文文献

猜你喜欢