论文摘要
在机器学习、模式识别和智能信息处理的实际应用领域,经常需要处理不平衡数据的分类问题,具体地说,不平衡数据的分类问题是指某类样本数量明显少于其他类别样本的情况,如:异常数据分析、入侵检测、欺诈检测、视频监控、故障诊断、医疗诊断等等。然而,传统的机器学习分类方法在处理不平衡数据分类问题时,分类器的判别结果总会倾向于多数类样本,导致分类器对少数类样本的识别效果严重退化,而在入侵检测之类的应用中,我们通常更关注少数类样本的分类正确率,因此,如何避免分类器给多数类样本留下更大的决策空间已成为不平衡数据分类算法解决的核心问题之一。机器学习领域的研究者们对不平衡数据分类问题做了大量的研究工作,至今已提出了很多不同的解决方案,总体上这些方法可以概括为两种类型类:一类从数据层入手,通过改变训练集的样本分布,减弱数据不平衡的程度;另一类是通过算法层的改进,针对算法本身在解决不平衡数据问题时的局限,适当地对算法作出相应的改进以使之适应不平衡数据的分类问题。支持向量机(support vector machines, SVM)是一种建立在统计学理论和结构化风险最小化原则上的学习机器,由于具备较强的泛化能力(generalization),当前在理论界工业界,SVM是研究和运用得最为广泛的算法之一。但是,研究表明,在处理数据不平衡分类问题时,SVM的性能通常会严重退化,研究者提出一些改进的方法,但这些方法通常存在计算消耗大,无法获得全局最优解,处理结果依赖于样本集的特性等缺点。本文正是针对以上问题,以网络入侵检测为应用背景,对面向不平衡数据的支持向量机方法去作了相关的研究,论文的主要研究工作分为以下几个方面:(1)首先介绍了统计机器学习的基本概念和不平衡数据分类学习方面的相关背景以及研究现状;接着,对网络入侵检测原理作了简单的介绍,并且详细描述了本文所使用到的数据集情况;(2)介绍了统计学习理论的相关背景知识,特别是结构风险最小化(Structural Risk Minimization, SRM)的概念,以及以其为基础的支持向量机(SVM)的基本原理和实现过程。并且将标准SVM方法运行在入侵检测数据集上作了相关实验,并分析了最终的分类结果;(3)介绍了面向不平衡数据的分类学习问题的数据层改进方法,接着运用当前比较流行的SMOTE算法和本文新提出的基本聚类的欠采样(Cluster-based Undersampling)方法对原始数据集分别作了过采样处理和欠采样处理,然后分别在经过重采样处理后的数据集上运用标准的SVM算法实验,最终的实验结果表明,将本文新提出的基于聚类的欠采样方法和最常用的过采样方法SMOTE分别与标准的SVM算法结合之后的分类性能相当,并且和运行在原始数据集上的SVM相比,分类效果均有一定程度地改善;(4)针对目前研究者提出的一些面向不平衡数据的改进的SVM方法所存在的问题,比如这些方法通常计算消牦大,不能得到全局最优解,处理结果依赖于样本集的特性等等,提出了以弱化多数类样本的作用为基础的加权支持向量机算法(weighted-SVM),同时将其应用到网络入侵检测中验证,算法分析和实验结果表明新提出的算法在不增加算法复杂度的情况下,有效地提升了算法的分类性能。