代价敏感异常分类算法研究

代价敏感异常分类算法研究

论文摘要

网络技术的不断发展、网络知识的不断普及,使得我们的生活发生了根本性的变革,社会生活的各个方面都受到了极大的影响,网络系统已成为现代生活中不可或缺的组成元素。但与此同时病毒、木马、黑客攻击、网上经济犯罪、垃圾电子邮件等各种网络安全威胁也伴随产生,而且趋于实施的隐蔽化、技术的复杂化、危害程度的严重化等。这对网络安全机制是一个严峻的考验。入侵检测系统对网络或系统活动可以进行主动监控,是一种非常高效的网络安全技术。当前攻击技术飞速发展的势态要求入侵检测系统对未知攻击仍具有良好的检测能力,同时当对未知攻击已获取了足够的知识,就应及时更新现有的分类模型。目前实现分类模型更新的办法是把未知攻击的实例加入到原有数据集中一同作为训练数据,重新训练出新分类模型。尽管这种解决方法可以实现分类模型的更新但并不合理。因为原有的分类模型仍具有使用价值却被摒弃了。为了解决传统方案中的不合理性,实现原有分类模型的使用价值,本文采用复合模型来实现更新。首先快速产生一个轻量级的简单分类模型以检测新出现的攻击,原有分类模型依旧可用。检测攻击时先使用原有分类模型,若检测为未知攻击,就交由简单分类模型进一步检测。实现该复合模型的关键点是如何让原有分类模型识别出未知新攻击,即找出已知攻击与未知新攻击之间的界限。这是本文研究的重点所在。本文提出并实现了稀疏拓展ArtiAnomalyG算法。首先使用该算法对训练数据集进行稀疏拓展,拓展出的新实例冠以类标“anomaly”。选用AdaCost算法对拓展后的新数据集进行分类学习,得到的分类模型就可以找出已知攻击与未知攻击之间的界限。本文主要做了以下几方面的工作:1.分析了AdaCost算法原理,并选用JBuilder9.0作为开发环境实现了该算法。将AdaCost算法的类文件移植到了weka系统中。2.提出了稀疏拓展ArtiAnomalyG算法,对其原理方法及流程过程都做了详细描述。在JBuiIder9.0平台上加以实现,并将其的类文件放置在weka系统子包中。3.分析了稀疏拓展ArtiAnomalyG算法可能引发的弊端——数据冲突。设计实验对拓展后的数据进行过滤,有微小的冲突发生。分别使用过滤前和过滤后的数据进行模型训练,结果表明尽管分类模型的检测精度有变化,但仍在可接受的范围内。4.设计实验对稀疏拓展ArtiAnomalyG算法进行验证,实验结果表明尽管对数据集进行稀疏拓展消耗了时间资源,但分类模型可以有效地检测出异常攻击,这与漏检异常攻击造成的损失相比是非常值得的。总之,稀疏拓展ArtiAnomalyG算法对训练数据集进行稀疏拓展扩大了数据集,使得产生出的分类模型可以检测到未知攻击,拓展了分类模型的检测能力。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景
  • 1.2 网络安全现状
  • 1.3 研究内容
  • 第二章 基于数据挖掘的入侵检测技术
  • 2.1 入侵检测定义
  • 2.2 入侵检测系统分类
  • 2.2.1 据数据采集位置不同分类
  • 2.2.2 据检测引擎实现技术不同分类
  • 2.3 入侵检测技术分析
  • 2.3.1 入侵检测原理
  • 2.3.2 大规模分布式入侵检测技术
  • 2.3.3 入侵检测系统的功能
  • 2.4 数据挖掘技术
  • 2.4.1 数据挖掘提出背景
  • 2.4.2 数据挖掘技术定义
  • 2.5 基于数据挖掘的入侵检测技术
  • 2.5.1 数据挖掘入侵检测算法
  • 2.5.2 基于数据挖掘的入侵检测系统的提出
  • 2.5.3 基于数据挖掘的入侵检测模型
  • 2.6 数据挖掘入侵检测技术的优点分析
  • 2.7 数据挖掘入侵检测系统发展前景
  • 2.7.1 数据挖掘入侵检测技术的局限性
  • 2.7.2 数据挖掘入侵检测系统的发展前景
  • 第三章 代价敏感入侵检测技术分析
  • 3.1 代价敏感热潮
  • 3.1.1 传统机器学习算法存在的问题
  • 3.1.2 代价敏感理论的提出
  • 3.2 代价敏感理论与入侵检测技术的结合
  • 3.2.1 代价因素
  • 3.2.2 代价估值
  • 3.2.2.1 操作代价估值
  • 3.2.2.2 损失代价估值和响应代价估值
  • 3.2.3 检测结果代价
  • 3.3 AdaCost算法分析
  • 3.3.1 AdaCost算法原理
  • 3.3.2 AdaCost算法流程描述
  • 3.4 本章小结
  • 第四章 代价敏感异常分类算法
  • 4.1 思路启迪
  • 4.2 稀疏拓展ArtiAnomalyG算法
  • 4.2.1 算法的原理方法介绍
  • 4.2.2 算法的过程描述
  • 4.3 稀疏拓展ArtiAnomalyG算法使用前提分析
  • 4.3.1 理论分析发生数据冲突的可能性
  • 4.3.2 设计实验验证冲突存在的可能性
  • 4.4 ArtiAnomalyG算法与AdaCost算法的结合
  • 4.5 算法的具体实现
  • 4.5.1 算法的实现平台
  • 4.5.2 算法程序中使用的几个关键的weka系统类
  • 4.5.2.1 实例属性类Attribute
  • 4.5.2.2 实例样本类Instance
  • 4.5.2.3 实例数据集类Instances
  • 4.5.2.4 代价因子矩阵weka.classifiers.CostMatrix类
  • 4.5.2.5 RIPPER算法的实现类JRip
  • 4.5.3 AdaCost类的具体实现
  • 4.5.4 稀疏拓展ArtiAnomalyG类的具体实现
  • 4.6 本章小结
  • 第五章 实验设计及结果分析
  • 5.1 实验设计
  • 5.1.1 训练数据集来源
  • 5.1.2 确定误分类代价因子
  • 5.2 ArtiAnomalyG算法的数据冲突实验设计及结果分析
  • 5.2.1 实验设计
  • 5.2.2 结果分析
  • 5.3 ArtiAnomalyG算法的异常检测实验设计及结果分析
  • 5.3.1 实验设计
  • 5.3.2 结果分析
  • 第六章 结论与展望
  • 6.1 工作小结
  • 6.2 今后工作
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    代价敏感异常分类算法研究
    下载Doc文档

    猜你喜欢