网络测量中的抽样技术研究

网络测量中的抽样技术研究

论文摘要

随着信息技术的飞速发展,互联网已经成为社会基础设施中最重要的组成部分之一。个人用户通过它获取信息,进行消费、娱乐;企业用户通过它发布产品信息,实现电子商务;政府部门通过它办公,开展电子政务等。为了满足人们对互联网应用日益增加的需求,它的规模不断扩大、速度不断提高,给网络测量技术带来了很大的挑战。网络管理者为了测量网络的性能,需要从大量的网络测试节点上收集流量数据,但是仅仅在一条OC48链路上采集到的每小时的流量就有600G字节,必须花费大量的资源去存储、传输和处理这些流量数据,使得网络测量无法进行。因此,在下一代大规模、高速网络中,抽样技术成为了很多大型网络在测量和监控网络性能时主要采用的方法,它一方面大大减少了测量的数据量,另一方面也降低了测量过程带给系统的高负荷。但是,抽样技术造成了测量数据的不完整性,影响了网络安全监测、网络管理和性能评估等分析结果的正确性,导致最终决策的失误。所以,抽样技术是整个网络测量的基础,不仅仅要考虑抽样本身的问题,还需要针对不同复杂的测量应用配置合适的抽样方法,才能达到正确网络测量的目的。本文深入研究了不同的网络应用中的抽样技术,主要内容和成果如下:一、提出了一种基于IP流的可变抽样率的网络流量抽样测量方法。通过实际测量和理论研究,分析了目前异常检测中所用的抽样方法影响检测结果正确性的原因,提出了新的可变抽样率的测量方法。该方法在设置从属过程中的数据报文抽样率的同时考虑到了主过程中的IP流的性质,利用哈希模式匹配,将到达的数据报文按流标识分类,并记录下该报文在IP流中的位置,然后根据报文在所属流中位置顺序参数的减函数设置不同的抽样率进行抽样。实验结果表明,该方法增加了短流中报文的抽样概率,解决了由于随机报文抽样方法偏向于抽样长流而导致的网络异常被丢弃的问题,提高了异常检测的正确性。该方法还可以应用于其他短流检测的网络测量中。二、提出了基于FARIMA流量预测的抽样方法。目前的互联网业务量特征具有高突发性和高随机性的特点,对实际网络流量进行的大量测试和分析结果表明其呈现出长程相关或自相似的统计特性。在网络业务量行为特征研究中,为了使数据报文的抽样采集过程不会对其统计特性造成影响,提出了基于FARIMA流量预测的抽样方法。该方法根据流量预测值,在高峰时段提高抽样粒度,采集较多的数据报文;流量较低的时间段,用小的抽样粒度来采集数据。这样,抽样样本就可以比较真实地反映原业务流量行为特征,同时流量低谷时段降低抽样粒度,可以减轻CPU的负载,节省存储空间。三、基于信息熵理论提出了一种大规模、高速IPv6网络流量分布式抽样测量方法。IPv6网络的128bit巨大地址空间带来了网络规模大幅增加,现有的抽样方法大部分只能应用于单点的网络测量,无法完整地反映IPv6网络的性能。文中的方法利用信息熵理论,对IPv6数据报文首部中的各个字段比特位的熵进行统计比较,选择出熵值较大(即随机性较强)的字段,将其作为抽样算法掩码匹配的关键字段,然后进行Hash映射,通过判断Hash映射后的值是否属于抽样域,来完成IPv6网络流量的抽样采集。它的优点是避免了对数据报文首部内容的全抽样,在保证抽样样本的随机性的前提下,有效地减少了运算量,提高了抽样测量的效率,满足了高速网络测量的要求。同时,它是基于对传输中数据报文首部内容不会被改变字段的抽样,所以在网络中的各个测量节点上,只要配置同一抽样算法和同一抽样域,对于相同流量数据在不同的节点测量可以得到相同的抽样样本,满足了分布式网络测量的要求。四、提出了一种基于抽样的非侵入式网络单向时延测量方法。该方法采用非侵入式的测量方式避免了主动时延测量中因为人为注入的探测流量会增加网络链路和路由器额外负载的缺陷,提高了时延测量的正确性,适用于以提供QoS保证为主要目标的IPv6网络时延测量中。哈希抽样技术既减少了高速网络流量测量采集的数据量,又可以让同一个数据报文在两个不同的测试端点都被抽样到,保证了测量的可行性。本文还针对网络单向时延测量中不同测试点时钟同步问题,分别研究了基于GPS接收机的硬件同步和基于线性规划的软件同步方法的实现,实验结果表明线性规划方法可以消除时钟偏差和频差,同步时钟。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 网络测量的意义
  • 1.1.1 互联网的发展特点
  • 1.1.2 网络测量的意义
  • 1.2 网络测量的方法
  • 1.2.1 网络测量的体系结构
  • 1.2.2 网络测量的主要方法
  • 1.2.3 网络测量的研究现状
  • 1.3 网络测量中的抽样技术
  • 1.3.1 流量测量的意义及方法
  • 1.3.2 高速网络对网络测量带来的问题
  • 1.3.3 抽样测量技术研究现状
  • 1.3.4 典型的抽样方法
  • 1.4 本文研究的主要内容及章节安排
  • 1.4.1 本文的主要研究内容及成果
  • 1.4.2 章节安排
  • 本章参考文献
  • 第二章 基于IP 流的可变抽样率的网络流量抽样测量方法
  • 2.1 网络异常检测中的抽样技术
  • 2.1.1 网络异常检测
  • 2.1.2 网络异常检测面临抽样数据
  • 2.2 随机报文抽样对异常检测结果的影响分析
  • 2.2.1 基于IP 流的随机报文抽样方法
  • 2.2.2 实验观察
  • 2.2.3 理论分析
  • 2.3 可变抽样率的网络流量抽样测量方法
  • 2.3.1 IP 流到达过程分析
  • 2.3.2 抽样方法的基本思想
  • 2.3.3 抽样方法的描述
  • 2.3.4 抽样概率的确定
  • 2.4 实验结果分析
  • 2.4.1 实验环境
  • 2.4.2 业务量异常
  • 2.4.3 端口扫描异常
  • 2.5 本章小结
  • 本章参考文献
  • 第三章 基于FARIMA 流量预测的抽样方法
  • 3.1 互联网业务流量的特性与建模
  • 3.1.1 业务流量特性
  • 3.1.2 业务流量建模
  • 3.2 基于FARIMA 流量预测的抽样方法
  • 3.2.1 FARIMA 模型
  • 3.2.2 抽样方法描述
  • 3.2.3 建模与预测
  • 3.3 实验结果与分析
  • 3.4 本章小结
  • 本章参考文献
  • 第四章 基于信息熵理论的分布式IPv6 网络抽样测量方法
  • 4.1 下一代互联网与IPv6
  • 4.1.1 下一代互联网的发展
  • 4.1.2 IPv6 网络流量抽样测量
  • 4.2 分布式的IPv6 网络抽样测量架构
  • 4.2.1 IPv6 网络分布式抽样测量
  • 4.2.2 分布式测量的架构
  • 4.3 基于信息熵理论的分布式IPv6 网络抽样测量方法
  • 4.3.1 抽样方法描述
  • 4.3.2 抽样方法分析
  • 4.4 实验结果与分析
  • 4.4.1 哈希函数的确定
  • 4.4.2 均匀性分析
  • 4.4.3 抽样报文长度分布性能分析
  • 4.5 本章小结
  • 本章参考文献
  • 第五章 基于抽样的非侵入式IPv6 网络单向时延测量方法
  • 5.1 单向时延概念与测量方法
  • 5.1.1 单向时延的概念与分析
  • 5.1.2 单向时延的测量方法
  • 5.2 基于抽样的非侵入式IPv6 网络单向时延测量方法
  • 5.2.1 测量方法
  • 5.2.2 时延测量模块的设计
  • 5.3 时钟同步算法及实验结果分析
  • 5.3.1 时钟同步算法介绍
  • 5.3.2 算法实现
  • 5.3.3 实验结果分析
  • 5.4 本章小结
  • 本章参考文献
  • 第六章 总结与展望
  • 6.1 全文内容总结
  • 6.2 有待于进一步研究的问题
  • 致谢
  • 攻读博士学位期间完成的论文与工作
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    网络测量中的抽样技术研究
    下载Doc文档

    猜你喜欢