论文摘要
Freund和Schapire1995年提出的AdaBoost算法是Boosting家族最具有代表性的算法,其基本思想是利用一系列的弱分类器通过加权线性组合来构成一个强分类器。AdaBoost作为一种集成学习方法,以PAC(ProbablyApproximatelyCorrect)学习理论为依据,在很多应用领域中都表现出了其优良特性。本文主要研究如何通过调整弱分类器的权重来提高AdaBoost算法的泛化性能,文章主要做了以下的工作:一方面,本文在简单介绍AdaBoost算法模型及其思想的基础上,分析了AdaBoost算法的泛化误差、训练误差及其收敛性,以及泛化误差与间隔之间的关系。并针对长期以来对于泛化误差与间隔分布以及最小间隔的关系的争论,介绍了两种基于间隔的AdaBoost弱分类器权重调整算法:基于最大化最小间隔的Arc-GV算法和基于优化间隔分布的AdaBoost-QP算法,通过实验比较AdaBoost、Arc-GV、AdaBoost-QP的泛化误差、最小间隔以及间隔分布,表明了间隔分布对于提高泛化性能的重要性。另一方面,注意到AdaBoost算法在有噪声的数据集上会出现明显的过学习现象,如AdaBoost-QP算法利用了优化样本间隔分布的方法来调整弱分类器的权重,但实验表明其依然会出现因为过于强调难分类的样本点而导致泛化性能下降的局限性问题。本文通过分析硬间隔和过学习现象的关系,为了克服AdaBoost算法对于噪声的敏感性,提出了给样本间隔加入松弛项的“软间隔”概念来弱化硬间隔对于有噪声数据分类的影响,并利用优化“软间隔”分布的方法改进了AdaBoost-QP算法,提出了两种算法-AdaBoost-QPKL、AdaBoost-QPnorm。实验结果表明调整后的两种新算法的泛化性能均得到了有效的提高。