数据流聚类及电信数据流管理

数据流聚类及电信数据流管理

论文摘要

随着芯片技术、互联网技术、视频技术等的飞速发展,IT世界的计算能力、传输能力都大大提高,随之而来的是数据的极大丰富,以前难以想象的海量存储甚至可以移植到桌面的PC中。如此海量的数据,带来新的难题是如何快速处理这些数据。特别是大量的数据是以流的方式产生的,具有“动于九天、瞬间即逝、无穷无尽”等的特性,常规的数据库处理技术已经无法满足这种新的数据模型的处理要求。近年来基于数据流的各种模型、分析技术成为学术界的研究热点,并且已经逐渐和实际应用相结合起来,成功地运用于电信、金融等领域。宽带业务的发展为电信运营商带来了新的业务增长点,但网络流量的急剧上升也向运营商提出了新的难题。如何在流量和带宽中获得平衡,维持IP网络稳定、健康运行,就是目前所有运营商必须面对的课题。目前IP网络上已经部署了很多种类的流量监测工具,根据对网络异常流量的采集方式可将网络流量监测技术分为:基于网络流量全镜像的监测技术、基于SNMP的监测技术和基于Netflow的监测技术三种常用技术。将这些监测技术和数据流处理技术相结合,可以解决很多实际的问题,并且衍生出新的研究方向,目前成为学术界研究的热点。本文结合作者实际的网络管理、规划经历,对数据流中的聚类分析、Top-N流量排序、异常流量监测等方面进行了深入研究,提出了相应的算法和分析系统,已经成功地运用在了上海电信IP网络管理系统中。本文的主要贡献有如下三个方面:1.提出了纳伪(false positive)和拒真(false negative)两种聚类特征指数直方图分别来支持纳伪误差和拒真误差窗口的聚类分析;然后,提出一种基于滑动窗口的数据流聚类方法。该方法在占用窗口大小的次线性内存空间前提下,及时保存最近数据记录的分布状况,从而实现对滑动窗口内的数据进行聚类。理论分析和实验结果表明,该方法具有良好的聚类质量、较小的内存开销和快速的数据处理能力。同时设计了基于该算法的电信网络流量分析系统,验证了其在实际系统中的有效性。2.针对Netflow的Top-N问题,本文提出可以基于数据流技术来实现的在线网络流量监控系统SMART。SMART收集多个路由器发送的Netflow V5或者V9格式的数据,并将其转换成用户定义的监控流;以滑动窗口的方式查询输出流量构成中Top-N频繁数据信息;监测网络流量突变;以可视化的图形和报表形式显示结果。SMART先进的数据流算法技术基础和完整的系统框架设计使得它在上海电信真实网络高效稳定地7*24小时运行,处理速度可以达到30000 flows/s,替代了上海电信原有的流量分析系统。3.基于PCA(Principal Components Analysis)的分析方法,设计并实现了RealMon系统。通过对基向量L的观察,对网络SNMP数据流进行相关性分析,从而检测出异常流量,并且不受网络中毛刺的影响。系统可以实时监测数千条链路,利用网络设备不同端口流量的相关性,可以有效地协助网管人员发现网络中的异常。同时为了提高系统的稳定性、降低系统的误报,RealMon中实现了针对数据流的数据清洗方法。总之,数据流处理技术和电信网络流量分析相结合有着广阔的发展前景。本文研究了电信网络流量分析的三类问题,分别提出从算法、概要数据结构到系统实现的完整方案。理论分析和实验结果表明本文算法适合于实时数据流的场景,并且在存储空间、处理速度和准确性上具有优势。这些理论和系统从实际应用中提出来,最终解决了实际的问题。

论文目录

  • 中文摘要
  • 英文摘要
  • 图目录
  • 1 引言
  • 1.1 数据流模型
  • 1.2 电信网络中数据流的应用背景
  • 1.2.1 电信网络中的流量管理技术
  • 1.2.2 数据流处理技术在电信网络中的应用
  • 1.3 本文研究的问题
  • 1.4 本文的贡献
  • 1.5 论文的组织
  • 2 背景与相关工作
  • 2.1 简单网络管理协议
  • 2.2 NetFlow技术
  • 2.3 电信IP网络管理
  • 2.4 数据流处理技术
  • 2.4.1 什么是数据流处理技术?
  • 2.4.2 数据流聚类算法
  • 2.4.3 相关的原型系统
  • 2.5 本章小结
  • 3 Netflow数据流的进化聚类
  • 3.1 数据流聚类在电信网络管理中的应用
  • 3.1.1 电信网络流量管理系统
  • 3.1.2 电信网络数据流的聚类分析
  • 3.2 基于滑动窗口的数据流聚类算法
  • 3.2.1 聚类特征指数直方图及其维护
  • 3.2.2 基于滑动窗口的聚类
  • 3.3 实验分析
  • 3.3.1 实验设置
  • 3.3.2 聚类效果
  • 3.3.3 内存开销
  • 3.3.4 处理时间
  • 3.4 数据流聚类分析的应用系统
  • 3.5 本章小结
  • 4 NetFlow数据流上的Top-N排序
  • 4.1 引言
  • 4.2 系统结构
  • 4.2.1 设计要求
  • 4.2.2 模块设计
  • 4.3 基于滑动窗口的频繁项挖掘算法
  • 4.3.1 寻找数据流的频繁数据集
  • 4.3.2 关于在滑动窗口寻找数据流中元素的近似计数的算法[13]
  • 4.3.3 算法框架
  • 4.3.4 Netflow应用:24小时汇聚算法
  • 4.4 实验分析
  • 4.4.1 准确性实验
  • 4.4.2 效率实验
  • 4.5 本章小结
  • 5 SNMP数据流上的异常检测
  • 5.1 相关工作
  • 5.2 主成分分析技术
  • 5.3 使用主成分分析技术处理SNMP数据流
  • 5.3.1 问题描述
  • 5.3.2 SNMP数据流的在线处理
  • 5.4 SNMP数据的预处理
  • 5.5 RealMon系统
  • 5.6 本章小结
  • 6 总结与展望
  • 6.1 本文工作总结
  • 6.2 未来工作展望
  • 参考文献
  • 攻读博士期间发表论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    数据流聚类及电信数据流管理
    下载Doc文档

    猜你喜欢