论文摘要
集成学习是一种新的机器学习范式,它使用多个学习器来解决同一个问题,能够显著地提高学习系统的泛化能力,因此从20世纪90年代开始,集成学习逐渐成为了机器学习领域的一个新的热点。在实际分类问题中,为了减少损失和失误的概率,往往会对分类方法提出更高的要求,使其达到尽可能高的分类精确率,例如,行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等一些需要精确分类的实际项目。集成学习方法目前还不能满足这样的高精度要求。基于此类现实问题的考虑,本文提出了一种新的集成学习方法,为其注入了新鲜血液,将具备强学习能力的支持向量机方法运用于集成学习模式当中,称之为Boost-SVM算法,以期得到更高的分类精确率。选用支持向量机(Support Vector Machines,简称SVM)作为分量学习机,作为基于统计学习理论发展起来的分类方法,它解决了模型选择与过学习、非线性和维数灾难问题、局部极小点等问题。Boost-SVM算法实质上是通过重点训练容易被分类器错误分类的样本来减少错误分类率。影响学习机分类效果的正是这部分被错误分类的样本,Boost-SVM重点标记错误分类的样本权值,并且在反复迭代中多次学习该类样本,以减少被错误分类的样本个数,从而达到降低错误分类率的目的。本文在LIBSVM平台上通过改造实现了Boost-SVM算法并在UCI分类数据集上进行了验证。实验结果表明Boost-SVM可以有效地提高分类精确率,并且相对于SVM结果上有了较大的提高。该方法具有可理解性强、算法易于实现等优点,并可以用来解决多类别分类问题,在解决分类问题上颇具竞争力。