论文摘要
支持向量机是一种新的机器学习方法,它以统计学习理论为坚实的理论基础,在解决分类、回归、时间序列预测等问题上表现出了卓越的性能。现在支持向量机日益深入地应用于文本分类、手写数字识别、人脸识别、入侵检测等领域。本文围绕支持向量机在入侵检测中的应用,对支持向量机的一些算法进行了研究。入侵检测技术的发展趋势是适应高速、分布式的网络环境。在这一环境下,SVM要学习大量的训练数据,同时还要具备实时性。入侵检测还存在另一个问题,异常样本分布比较分散,数量相对较少。本文分析了快速的PSVM(Proximal SVM)算法以及样本数量对分类机分类性能的影响,同时利用加权处理的方法对原始的线性、非线性PSVM方法进行了改进。实验证明算法不但分类速度快,而且在分类的准确度得到提高。特征选择和特征提取是机器学习算法应用的重要基础,本文利用核主成份分析对入侵检测的训练样本进行特征提取,有效地提取出样本的分类信息,降低了维数。在此基础上,进一步地将简约支持向量机RSVM(Reduced SVM)方法应用到非线性的PSVM中,降低了核矩阵的计算量。两种方法相结合提高了训练速度和入侵检测的分类效果。增量学习是近几年研究的热点之一,它的优点在于学习过程中能舍弃无用的样本,减小训练集,节约存储成本。经典的SVM算法并不直接具有增量学习的能力,但其理论体系中的支持向量概念对于增量学习算法的构建具有十分重要的意义。本文在分析支持向量、非支持向量与分类超平面、间隔超平面的关系的基础上,探讨了KKT条件在增量学习过程中的作用以及增量学习过程中支持向量、非支持向量的变化,并给出了相关定理的证明。通过实验比较了几种增量学习方法的学习效果,最后提出了一个在类别不均衡情况下基于LSVM(Lagrange SVM)的增量学习方法,实验表明在线性情况下算法对异常样本的检测准确率提高,同时时间没有大的变化。