论文摘要
分类问题是指通过对已知类别的样本集的学习,来预测未知类别样本的问题。对于分类问题,按样本集合中总的类别个数可分为两类分类问题和多类分类问题:按样本所拥有的标签数可分为单标签分类问题和多标签分类问题。其中多标签分类问题是指一个样本同时属于多个类别或者具有多个标签的问题,是最为复杂的分类问题之一,它包括了两类分类问题和多类分类问题。对于多标签分类问题,本文使用一种“一对一”的分解策略,将多标签分类问题分解成多个两类单标签和两类双标签的分类子问题,再分别加以处理。对于两类单标签分类子问题,使用一般的两类支持向量机分类算法进行处理,对于两类双标签分类子问题,本文提出一个基于三类支持向量机的分类算法进行处理,在算法中将同时拥有两个标签的样本看作为在正类和负类之间的混合类的样本,并使用两个平行的超平面将这三个类别的样本分开。为了提高训练速度,文中设计了针对三类支持向量机的快速算法,它是通过将大规模的二次规划问题分解成一系列的小规模的问题来完成的,并且采用对著名的SVMlight算法的修改来实现。在算法的实验部分,本文归纳了一些常用的多标签分类算法的评价准则,并在三个基准数据集酵母数据集、景象数据集和文本数据集上进行实验,与一些存在的多标签分类算法进行比较,以验证算法的性能和速度。在分类性能的比较上,没有一个多标签分类算法能够保证在所有的评价准则上都取得最优,因此本文为实验中算法的每个评价准则打分,然后比较各个算法的总得分,在与Rank-SVM、BoosTexter、AdtBoost.MH、ML-kNN、BP-MLL、BasicBP、OVR-SVM、OVO2BN-SVM、OVOC4.5、OVO-kNN和OVO-NB等众多多标签分类算法的比较中本文的算法在所有进行的实验中总得分排名都不低于第四位。在算法计算时间的比较上,对于具有23149个训练样本的文本数据集,本文的多标签分类算法比其它两种基于支持向量机的分解算法,在训练时间上要快三倍左右,在能够决定测试时间的支持向量个数上也最少。