论文摘要
随着信息技术的飞速发展,互联网已经成为社会基础设施中最重要的组成部分之一。个人用户通过它获取信息,进行消费、娱乐;企业用户通过它发布产品信息,实现电子商务;政府部门通过它办公,开展电子政务等。为了满足人们对互联网应用日益增加的需求,它的规模不断扩大、速度不断提高,给网络测量技术带来了很大的挑战。网络管理者为了测量网络的性能,需要从大量的网络测试节点上收集流量数据,但是仅仅在一条OC48链路上采集到的每小时的流量就有600G字节,必须花费大量的资源去存储、传输和处理这些流量数据,使得网络测量无法进行。因此,在下一代大规模、高速网络中,抽样技术成为了很多大型网络在测量和监控网络性能时主要采用的方法,它一方面大大减少了测量的数据量,另一方面也降低了测量过程带给系统的高负荷。但是,抽样技术造成了测量数据的不完整性,影响了网络安全监测、网络管理和性能评估等分析结果的正确性,导致最终决策的失误。所以,抽样技术是整个网络测量的基础,不仅仅要考虑抽样本身的问题,还需要针对不同复杂的测量应用配置合适的抽样方法,才能达到正确网络测量的目的。本文深入研究了不同的网络应用中的抽样技术,主要内容和成果如下:一、提出了一种基于IP流的可变抽样率的网络流量抽样测量方法。通过实际测量和理论研究,分析了目前异常检测中所用的抽样方法影响检测结果正确性的原因,提出了新的可变抽样率的测量方法。该方法在设置从属过程中的数据报文抽样率的同时考虑到了主过程中的IP流的性质,利用哈希模式匹配,将到达的数据报文按流标识分类,并记录下该报文在IP流中的位置,然后根据报文在所属流中位置顺序参数的减函数设置不同的抽样率进行抽样。实验结果表明,该方法增加了短流中报文的抽样概率,解决了由于随机报文抽样方法偏向于抽样长流而导致的网络异常被丢弃的问题,提高了异常检测的正确性。该方法还可以应用于其他短流检测的网络测量中。二、提出了基于FARIMA流量预测的抽样方法。目前的互联网业务量特征具有高突发性和高随机性的特点,对实际网络流量进行的大量测试和分析结果表明其呈现出长程相关或自相似的统计特性。在网络业务量行为特征研究中,为了使数据报文的抽样采集过程不会对其统计特性造成影响,提出了基于FARIMA流量预测的抽样方法。该方法根据流量预测值,在高峰时段提高抽样粒度,采集较多的数据报文;流量较低的时间段,用小的抽样粒度来采集数据。这样,抽样样本就可以比较真实地反映原业务流量行为特征,同时流量低谷时段降低抽样粒度,可以减轻CPU的负载,节省存储空间。三、基于信息熵理论提出了一种大规模、高速IPv6网络流量分布式抽样测量方法。IPv6网络的128bit巨大地址空间带来了网络规模大幅增加,现有的抽样方法大部分只能应用于单点的网络测量,无法完整地反映IPv6网络的性能。文中的方法利用信息熵理论,对IPv6数据报文首部中的各个字段比特位的熵进行统计比较,选择出熵值较大(即随机性较强)的字段,将其作为抽样算法掩码匹配的关键字段,然后进行Hash映射,通过判断Hash映射后的值是否属于抽样域,来完成IPv6网络流量的抽样采集。它的优点是避免了对数据报文首部内容的全抽样,在保证抽样样本的随机性的前提下,有效地减少了运算量,提高了抽样测量的效率,满足了高速网络测量的要求。同时,它是基于对传输中数据报文首部内容不会被改变字段的抽样,所以在网络中的各个测量节点上,只要配置同一抽样算法和同一抽样域,对于相同流量数据在不同的节点测量可以得到相同的抽样样本,满足了分布式网络测量的要求。四、提出了一种基于抽样的非侵入式网络单向时延测量方法。该方法采用非侵入式的测量方式避免了主动时延测量中因为人为注入的探测流量会增加网络链路和路由器额外负载的缺陷,提高了时延测量的正确性,适用于以提供QoS保证为主要目标的IPv6网络时延测量中。哈希抽样技术既减少了高速网络流量测量采集的数据量,又可以让同一个数据报文在两个不同的测试端点都被抽样到,保证了测量的可行性。本文还针对网络单向时延测量中不同测试点时钟同步问题,分别研究了基于GPS接收机的硬件同步和基于线性规划的软件同步方法的实现,实验结果表明线性规划方法可以消除时钟偏差和频差,同步时钟。