论文摘要
数据挖掘(Data Mining)技术是从已知数据集中挖掘有用知识的技术。近十年来的有关研究结果表明,将数据挖掘技术应用于入侵检测系统(Intrusion Detection System,IDS),对有效地进行特征选择,建立合适的检测模型,最终提高入侵检测系统的入侵检测能力,降低其误报率和漏报率有着十分重要的意义。虽然将数据挖掘技术应用于IDS时可借鉴的算法较多,但由于能适合所有情形的数据挖掘算法是不存在的,所以算法研究方面至今尚无权威性的成果;同时,很多研究过于注重理论性与技术性,忽略了所引入的数据挖掘算法的复杂度对入侵检测系统效率的影响;此外,目前成熟的IDS产品基本都采用基于规则的检测方法,这类IDS将数据包与规则库的规则进行精确匹配,如果攻击模式很常见或过于特殊,就容易产生误报或漏报,从而降低入侵检测的准确率。为此,本文以江苏省教育厅的研究项目“基于数据挖掘的入侵检测技术的研究”(02SJD520002)为背景,以适应IDS数据源特点、降低复杂度、提高效率为目标,对数据挖掘算法进行研究,包括特征选择算法、数值归约算法、聚类算法;也以增强灵活性、降低误报率和漏报率为目标,对基于数据挖掘的入侵检测方法进行研究。论文针对入侵检测系统中被检测数据的特点,提出了一种适用于IDS的多次模糊迭代特征选择算法和一种适用于IDS的基于相关性度量的特征选择算法。多次模糊迭代特征选择算法由在属性空间中搜索特征子集、评估每个候选特征子集和分类这三个步骤组成,有与之相应的搜索算法和评估函数;该算法通过多次迭代去除特征值集的冗余特征得到精确度较高的特征值集,使用模糊逻辑得到与精确度要求相应的取值范围;由于单纯对数据进行操作,该算法能更客观地分析数据;论文还基于KDD Cup 99数据集对该算法进行了仿真分析;并将实验结果与特征可视化结果进行了比较;实验结果表明该算法在IDS数据集上可取得良好的特征选择效果。基于相关性度量的特征选择算法对特征值进行模糊处理,计算特征相关性度量值,按度量值降序排列特征,再基于该特征序列进行特征选择;以分类器作为评估系统,以KDD Cup 99为数据源的仿真结果验证了该算法能在不影响效率的同时降低时间复杂度。论文还以提高IDS中分类挖掘的效率为目标,提出了一种适用于IDS中数据分类的数值归约算法,该算法一方面用值域来减少特征值数目,一方面将孤立的点放大为一个区域以预测类似行为;以KDD Cup 99数据集为数据源、以决策树分类算法为例的仿真实验结果表明,该算法能在降低已有分类算法的时间复杂度的同时使分类准确率有所提升。聚类分析常被用于IDS的入侵检测阶段。本文针对经典模糊C-均值算法FCM的缺陷,提出了一种基于层次聚类的模糊聚类算法HFC,该算法采用凝聚的层次聚类方法,快速地发现高度聚集的数据区域,并对这些高密度区域进一步分析与合并,通过评估函数的评估,找到最优的聚类方案;仿真实验结果表明,该算法具有较高的聚类精确度和较强的排除噪声的能力;论文还通过基于KDD Cup 99数据集的仿真实验,分析了该算法对IDS中入侵检测的适用性。为了提高基于规则的IDS的检测能力,论文提出了基于CBR (Case-Based Reasoning,基于案例的推理)的入侵检测方法;描述了实现CBR的步骤;给出了由规则设计和构造案例库的启发式方法;设计了适用于IDS的CBR引擎及案例匹配算法;分别通过基于Snort的规则集、自行开发的攻击平台及离线检测系统的实验和基于在线数据包的实验,验证了CBR对基于规则的IDS检测能力的增强作用。最后,总结了所做的工作,分析了存在的不足,提出了进一步研究的目标。论文对数据挖掘技术在入侵检测系统中的应用做了有益的研究。