基于不同属性数据流的离群数据挖掘算法的研究

基于不同属性数据流的离群数据挖掘算法的研究

论文摘要

对国内外数据流离群数据挖掘研究情况分析可知,以往的挖掘算法还存在诸多问题。多数离群数据挖掘方法往往忽略了混合属性数据流的分类属性;简单的分类属性数据流离群数据挖掘由于没有采用合理的加权思想,挖掘出的离群数据偏差较大。这些问题的研究对金融欺诈检测、网络入侵检测、以及天气预报等风险控制领域具有重要的意义。文中首先提出了一种混合属性数据流离群点检测算法HDSOD,引入聚类参考存储数据流的概要信息,先对数据流进行分区,对于每一分区进行聚类,将聚类结果存储于聚类参考中,充分利用聚类参考的存储信息计算其代表度,以及与其相邻的聚类参考的个数,判断该聚类参考是否为离群参考对象,离群参考对象所代表样本点为可能的离群点。该算法在有限内存中有效的对混合属性数据流进行离群点检测。其次,提出了分类属性数据流的离群数据挖掘方法CFPOD-Stream。该算法定义了加权闭合频繁模式离群因子,通过动态发现和维护频繁闭项集来计算离群度,采用带有衰减因子的查询索引结构来处理数据的概念转移现象,有效地检测出离群数据。最后,将离群数据挖掘方法应用于软件漏洞分析,该算法对算法CFPOD-Stream进行改进,发现与离群事务相偏离的闭合频繁项集,用以解释其软件漏洞发生不频繁的原因。本课题使用C++语言对上述算法进行实现,使用现实数据集KDD-CUP-99和仿真数据集对文中提出的算法进行测试,通过对不同处理结果的对比分析,所提出的算法在解决各自的问题上是有效的。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 数据挖掘技术
  • 1.1.1 数据挖掘研究背景
  • 1.1.2 数据流挖掘的研究背景
  • 1.2 离群数据挖掘研究背景
  • 1.2.1 离群点挖掘的内容
  • 1.2.2 离群数据挖掘的研究现状
  • 1.3 课题研究内容
  • 1.4 文章组织结构
  • 第2章 混合属性数据流的离群数据挖掘算法
  • 2.1 引言
  • 2.2 数据流中离群数据挖掘的思想
  • 2.3 基于K 中心点的数据流聚类
  • 2.4 问题定义
  • 2.4.1 聚类参考
  • 2.4.2 距离的计算
  • 2.4.3 离群点参考对象
  • 2.5 混合属性数据流的离群数据挖掘算法的设计
  • 2.5.1 划分聚类算法
  • 2.5.2 HDSOD 算法设计
  • 2.6 算法分析
  • 2.7 本章小结
  • 第3章 分类属性数据流的离群数据挖掘算法
  • 3.1 引言
  • 3.2 滑动窗口模式
  • 3.3 挖掘任务的过程
  • 3.4 问题定义
  • 3.5 分类属性数据流的离群数据挖掘算法设计
  • 3.6 实例分析
  • 3.7 算法分析
  • 3.8 本章小结
  • 第4章 离群数据挖掘在软件漏洞分析中的应用
  • 4.1 引言
  • 4.2 问题定义与描述
  • 4.2.1 漏洞程序操作序列
  • 4.2.2 相关定义
  • 4.3 基于离群数据挖掘的软件漏洞分析方法
  • 4.3.1 算法CFPOD 的设计
  • 4.3.2 分析离群的软件漏洞
  • 4.4 实例分析
  • 4.5 算法分析
  • 4.6 本章小结
  • 第5章 算法实验分析
  • 5.1 数据集的来源
  • 5.2 HDSOD 算法的实验
  • 5.2.1 数据集和参数的设置
  • 5.2.2 实验结果分析
  • 5.3 CFPOD-STREAM 算法的实验
  • 5.3.1 数据集和参数的设置
  • 5.3.2 实验结果分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间承担的科研任务与主要成果
  • 致谢
  • 作者简介
  • 相关论文文献

    • [1].春日有感[J]. 企业与文化 2017(02)
    • [2].教育大数据下基于离群检测的教学预警模型探讨——评《基于自然邻居的聚类分析和离群检测算法研究》[J]. 中国科技论文 2020(01)
    • [3].光纤网络中的离群异常数据检测方法研究[J]. 激光杂志 2017(08)
    • [4].幼儿“离群”原因分析及应对策略[J]. 幼儿教育 2019(35)
    • [5].独唱[J]. 诗潮 2017(04)
    • [6].让离群的“小雁”回归[J]. 好家长 2017(19)
    • [7].大雁你为什么要落单——初中生离群现象的原因剖析[J]. 考试与评价 2012(05)
    • [8].浅谈“孤僻离群”类型大学生的心理健康教育[J]. 考试与评价 2013(06)
    • [9].浅谈初中生离群现象[J]. 新课程(中旬) 2013(09)
    • [10].离群的大雁[J]. 阅读与作文(小学低年级版) 2009(06)
    • [11].细微之处见真爱[J]. 新作文(教育教学研究) 2011(15)
    • [12].基于生成树离群检测法的用户行为提取仿真[J]. 计算机仿真 2020(06)
    • [13].让人非我弱 得志莫离群[J]. 历史教学问题 2019(02)
    • [14].改进密度峰值支撑点选取及其在度量空间离群检测的应用[J]. 小型微型计算机系统 2017(05)
    • [15].孤独[J]. 新作文(初中版) 2011(Z2)
    • [16].无线网络通信中离群失联节点定位仿真分析[J]. 计算机仿真 2014(09)
    • [17].非遗传因素对新疆地区荷斯坦奶牛在群寿命的影响[J]. 中国畜牧兽医 2020(03)
    • [18].光纤网络离群恶意数据自动检测研究与分析[J]. 激光杂志 2019(08)
    • [19].一种基于枢纽现象和加权离群分数的离群数据挖掘算法[J]. 小型微型计算机系统 2018(10)
    • [20].小学生离群现象的个案分析及教育对策[J]. 基础教育研究 2012(13)
    • [21].一种基于包含关系的空间面对象条件离群检测算法[J]. 山东大学学报(工学版) 2011(02)
    • [22].网格环境下分布式空间离群挖掘体系的设计与应用[J]. 地球信息科学学报 2011(03)
    • [23].基于加权自然邻域属性和熵的离群检测算法[J]. 数字技术与应用 2015(02)
    • [24].基于邻接图的离群数据聚类算法[J]. 计算机工程 2008(11)
    • [25].浅谈离群学生的教育转化[J]. 教育 2018(31)
    • [26].支持k-离群度的边界点检测方法[J]. 计算机工程与应用 2011(33)
    • [27].一种离群数据集延伸知识发现框架[J]. 华南理工大学学报(自然科学版) 2008(09)
    • [28].一种基于多视角聚类的离群检测算法[J]. 现代计算机(专业版) 2016(14)
    • [29].人为什么会产生自卑?[J]. 中华养生保健 2012(07)
    • [30].基于裁边策略的空间离群区域检测算法[J]. 计算机应用研究 2013(03)

    标签:;  ;  ;  ;  ;  

    基于不同属性数据流的离群数据挖掘算法的研究
    下载Doc文档

    猜你喜欢