论文摘要
网络安全技术一直是人们研究的热点。作为网络安全体系中不可或缺的重要部分,入侵检测系统有着广泛的应用。它能够实时监控网络状况,及时报警入侵活动,有效弥补防火墙的不足。目前,已有许多研究人员对入侵检测进行深入研究,提出了一些有效的检测算法。然而随着互联网的高速发展,网络数据规模越来越大、越来越复杂。入侵活动隐藏在这些海量的网络数据流中,难以发现。此外,与正常网络通信的数据量相比,入侵活动的数据量很小。传统的入侵检测技术以整体检测准确率作为检测标准,容易忽略数据量较小的入侵活动,已经不适合网络新环境。另一方面,现有检测方法大部分是有监督算法,对无监督算法的研究较少。这些检测算法需要考虑样本的类标签,对于海量的网络数据集来说,这大大增加了入侵检测系统的成本,降低了系统的运行效率。因此,必须发展新的方法来检测这些入侵行为。针对这些问题,本文提出两种解决途径,集成特征选择和改进重抽样。在不平衡问题中,特征选择的难点在于难以确定有效区别少数类样本和多数类样本的特征。本文综合了集成技术和无监督特征选择方法,提出了集成特征选择方法。实验表明,该方法能够选择出对区分样本类别贡献较大的特征,并且能保持较高的入侵检测效率。为了提高入侵检测中样本数极少类别的检测效率,在无监督聚类和抽样的基础上,提出一种无监督的基于抽样的支持向量聚类算法(SVCR).该方法将支持向量聚类和重抽样相结合,通过对多数类样本进行欠抽样,对少数类样本过抽样,合理选择参与学习的样本。在相关入侵检测数据集上进行了实验,结果表明,本文提出的方法对数量极少的样本的检测效率有较大幅度的提高。