数据流聚类算法及其应用

数据流聚类算法及其应用

论文摘要

近年来,伴随着网络信息技术的高速发展,产生了一种新式的数据模型——数据流。它常常产生于web上的用户点击、网络入侵检测、实时监控系统或无线传感器网络等动态环境中。相比较传统据集,这些海量的数据流具有快速性、连续性、变化性、无限性等特点,使数据流的挖掘面临着新的要求和挑战。聚类分析作为数据挖掘领域的一个重要课题,能够使未标记数据按照指定属性分组为不同的类,在近期得到广泛研究和高度重视。本文以数据流聚类算法为研究内容,异常数据点的检测为研究目标,主要作了以下三个方面的工作:(1)总结了数据流模型及其聚类的相关概念和技术,并描述了数据流聚类的特殊要求以及目前国内外数据流聚类算法。同时说明了异常检测的定义、现有方法以及当前所面临的挑战。(2)在高速网络中,数据流具有高速、突发等特性,使得高速网络中的异常检测成为一个难点。本文提出了一种基于SSClu树的流聚类算法用于高速流的异常检测。算法首先引入一种维持数据流概要信息的SSClu树;然后针对数据流的高速特性,采用预先聚集和缓存机制。预先聚集是在数据流对象插入SSClu树聚类之前对其进行预先聚类的过程,以处理突发高速数据流的到达;缓存机制是用于当高速流到达时,暂存当前来不及处理的数据流对象,解决了高速流不能及时聚类的问题。仿真结果表明,本算法能及时处理高速数据流,且具有较高的聚类精度,保证了高速流下异常检测的准确性。(3)针对无线传感器网络中的离群点检测问题,考虑到无线传感器网络(Wireless Sensor Network,WSN)环境分布式以及能源消耗的限制,提出了一种基于相似性群集模型的流聚类算法(Stream Cluster algorithm Based on Similarity Flocking model,SCBSF)。算法采用一种模拟群体运动的群集模型将数据自我组织来形成聚类,这种自组织性更加适用于分布式环境批量数据点的聚类;同时通过群集规则来完成任意形状簇的聚类,而不需要采用传统二阶段聚类思想,减少了算法计算和存储复杂度;考虑到WSN中算法的能耗问题,在采集节点端,利用初始聚类信息来临时记录所产生的相似数据特征,以此来减少数据传输从而达到降低通信能耗的效果。仿真结果表明,算法不仅具有较好的离群点检测效果,同时也降低了聚类过程中数据计算和传输的能源消耗。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景
  • 1.2 数据流模型
  • 1.3 数据流研究现状
  • 1.4 本文研究内容
  • 1.5 论文组织结构
  • 第二章 数据流聚类算法及其应用现状
  • 2.1 数据流聚类算法
  • 2.1.1 数据流聚类要求
  • 2.1.2 数据流聚类算法
  • 2.2 数据流聚类的主要应用
  • 2.3 普适数据流聚类
  • 2.4 数据流异常检测技术
  • 2.4.1 流异常的定义
  • 2.4.2 现有异常检测方法
  • 2.4.3 流异常检测面临的挑战
  • 2.5 本章小结
  • 第三章 基于SSClu树流聚类算法
  • 3.1 问题描述
  • 3.2 相关概念
  • 3.2.1 SS 树定义
  • 3.2.2 树的相关操作
  • 3.2.3 微聚类
  • 3.2.4 SSClu 树结构
  • 3.3 基于SSClu 树流聚类算法
  • 3.3.1 高速流处理策略
  • 3.3.2 高速流聚类算法
  • 3.3.3 聚类的更新
  • 3.4 高速流的异常检测
  • 3.4.1 异常检测框架
  • 3.4.2 异常检测分析
  • 3.5 实验分析
  • 3.5.1 实验环境
  • 3.5.2 实验评价
  • 3.6 本章小结
  • 第四章 基于相似性群集模型的流聚类算法
  • 4.1 问题描述
  • 4.2 相关工作
  • 4.2.1 WSN 结构及离群点
  • 4.2.2 WSN 数据流聚类研究现状
  • 4.3 相似性群集模型
  • 4.3.1 群集模型
  • 4.3.2 相似性群集模型
  • 4.4 基于相似性群集模型的流聚类算法及其在WSN 中的应用
  • 4.4.1 WSN 中离群点检测模型
  • 4.4.2 离群点判别
  • 4.4.3 采集端数据处理方法
  • 4.4.4 基于相似性群集模型的聚类算法
  • 4.4.5 能耗分析
  • 4.5 实验及结果分析
  • 4.5.1 实验环境
  • 4.5.2 结果评估
  • 4.6 本章小结
  • 第五章 总结和展望
  • 5.1 论文工作总结
  • 5.2 下一步工作计划
  • 参考文献
  • 攻读硕士期间发表的学术成果
  • 相关论文文献

    • [1].基于动态窗口的大数据流式处理技术研究[J]. 数字技术与应用 2020(03)
    • [2].基于邻域相似的大数据流滞后相关性挖掘仿真[J]. 计算机仿真 2020(06)
    • [3].数据流技术在汽车维修中的应用探讨[J]. 时代汽车 2019(07)
    • [4].基于大数据的定性数据流聚类优化模型研究[J]. 西安文理学院学报(自然科学版) 2019(04)
    • [5].一种基于数据流的异常值检测改进算法[J]. 中国科技信息 2017(23)
    • [6].云计算中数据流存储负载均衡优化仿真[J]. 计算机仿真 2018(10)
    • [7].大数据流式计算系统综述[J]. 成组技术与生产现代化 2016(04)
    • [8].数据流技术在汽车维修中的应用[J]. 科技展望 2016(16)
    • [9].数据流分类挖掘中的概念变化研究[J]. 计算机科学 2014(S2)
    • [10].浙江传媒学院加快数据治理形成“数据流”[J]. 中国教育网络 2020(Z1)
    • [11].面向非平衡与概念漂移的数据流分类的研究[J]. 现代计算机 2020(04)
    • [12].基于迁移学习的数据流分类研究综述[J]. 天津理工大学学报 2019(03)
    • [13].试分析电网自动化中数据流技术的运用[J]. 电工文摘 2016(06)
    • [14].海量数据流的分类稳定性决策与评判数学模型仿真[J]. 科技通报 2016(02)
    • [15].非平稳数据流下的网络入侵检测优化方法研究[J]. 计算机仿真 2016(09)
    • [16].分布式数据流分类关键技术研究[J]. 华北科技学院学报 2015(04)
    • [17].数据流技术在电喷发动机维修中的应用分析[J]. 湖南农机 2014(05)
    • [18].数据流技术在电网自动化中的应用实践[J]. 电子技术与软件工程 2014(08)
    • [19].数据流技术在汽车维修中的运用[J]. 黑龙江科技信息 2014(26)
    • [20].数据流系统降载研究综述[J]. 计算机应用研究 2008(10)
    • [21].基于协调数据流抢占机制的原理及设计[J]. 电脑与电信 2008(10)
    • [22].基于多维分层采样的时间维度型大数据流整合系统设计[J]. 现代电子技术 2020(05)
    • [23].数据流计算环境下的集群资源管理技术[J]. 大数据 2020(03)
    • [24].大数据流计算特点及“单一窗口”适用场景探讨[J]. 中国口岸科学技术 2020(08)
    • [25].基于自适应微簇的任意形状概念漂移数据流聚类[J]. 计算机应用与软件 2020(11)
    • [26].一种对数据流进行聚类的改进算法[J]. 电子设计工程 2017(22)
    • [27].分布式数据流上的高性能分发策略[J]. 软件学报 2017(03)
    • [28].一种基于质量估算的空间数据流聚类算法研究[J]. 计算机应用研究 2017(09)
    • [29].融合互近邻降噪的动态数据流分类研究[J]. 计算机科学与探索 2016(01)
    • [30].多媒体云计算下的大规模数据流调度方法研究[J]. 现代电子技术 2015(20)

    标签:;  ;  ;  ;  ;  

    数据流聚类算法及其应用
    下载Doc文档

    猜你喜欢