论文摘要
随着计算机网络的快速发展,人们在享受网络带来的便利的同时,对网络安全的要求也越来越高,传统的安全技术无法满足人们日益增长的网络安全的需求,入侵检测是继防火墙之后的一项新的安全技术,随着网络技术和相关学科的发展而成熟,成为了网络安全的一道新防线。入侵检测技术的关键就是从海量的数据当中区分正常行为和攻击行为,但是现有的入侵检测系统有着较高的误报率,成为了入侵检测技术进一步发展的瓶颈。数据挖掘技术可以从海量的数据当中找到人们感兴趣的知识,因此可以把入侵检测的过程看成是一个数据挖掘的过程。同时,入侵行为对应的数据与正常行为对应的数据具有不同的特征,数据挖掘技术通过寻找数据内部之间的关系,从而能够很好的区分这两种行为,达到提高检测率、降低误报率的目的。本文从入侵检测的发展历史和研究现状出发,介绍了入侵检测技术及其通用的体系结构,为基于数据挖掘的入侵检测模型的设计提供了相关可操作性理论依据;阐述了经典的数据挖掘方法,着重介绍了聚类分析的方法、划分聚类的度量方法和原始的K-means算法。原始的K-means算法对初始聚类中心敏感,本文利用遗传算法对聚类中心进行优化,对每个聚类中心进行染色体编码,并对其进行交叉、变异操作得到新的聚类中心,使用K-means算法快速收敛获取聚类结果,选择适应度高的聚类中心遗传下去,如此反复迭代,直到准则函数收敛,解决了原始K-means算法容易陷入局部最优的问题。原始的K-means算法对输入数据的顺序有很强的依赖性,本文利用统计学的方法,对每个聚类中记录的类型进行个数统计,选择一定比例的记录作为孤立点,将这些孤立点从原有聚类中剔除,并对它们进行重新的聚类划分。本文模拟了入侵检测的过程设计了一个简单的模型,该模型包括网络数据的收集、特征的选择、数据的标准化、入侵检测以及告警响应,并对各部分进行了详细叙述。在入侵检测的经典数据集KDD CUP1999上检验了算法的有效性。实验结果表明,该方法与相关研究对比提高了入侵检测系统的精度和效率。