论文摘要
Internet已经成为人们生活和经济活动中一个不可或缺的重要组成部分,为了监测网络是否安全、高效、稳定地运行和维护,必须对网络流量的特征,网络流量的类别进行细致的分析和研究,这些对及时了解网络实时运行状态、网络行为特征、定位网络故障十分重要,同时对设计高效的网络系统,重新进行网络性能设施的配置和为不同的网络客户提供QOS控制起到了指导性作用。而所有的这些都必须建立在对网络流量识别的基础之上。许多传统技术已经不适应形势的发展,传统的网络流量识别技术尤其是应用层的流量识别技术面临巨大的挑战,当前网络流量和模式比过去要复杂得多。这些新兴的业务流具有以下特点:大量基于网络的应用被开发和广泛使用,这些应用的数量在将来还会持续的增长。许多新兴业务流都使用私有的应用层协议,这些私有的协议非常复杂,很难在格式和操作上进行理解和交流。这些新兴的应用所使用的端口号是不规则的,许多业务流使用一个大于1024的临时端口号作为缺省端口。许多业务流的缺省端口号并不在IANA端口列表中注册,许多为某个特定区域的用户所开发的应用也不将它们的端口号在IANA端口列表中注册。许多P2P和流媒体应用程序使用动态端口号在节点间进行通信。综上所述,由于网络流量和模式的复杂性,提出新的并且高效的网络流量识别技术已成为近年来国际上的研究热点,有关课题具有重大而又深远的意义。本文系统研究了机器学习原理、数据挖掘技术以及特征选择算法,深入研究了多种网络流量识别算法,创新地提出分别基于分类和基于聚类的网络流量识别系统,并对两系统进行了分析比较。作者主要完成了以下工作:1、系统的研究了网络流量识别技术的国内外现状及发展情况。2、系统的介绍了网络流量识别的各种技术并进行了分析比较;系统的介绍了机器学习原理、数据挖掘技术以及特征选择算法。3、考虑到基于端口的识别方法准确性比较低,而基于有效负载的方法的开销太大,促使利用应用连接到网络时的特征流的特点来识别流量。本文提出两种流量识别系统:一种是综合基于端口号和传输层流量特征识别技术优点的分类算法流量识别系统;另一种是基于聚类算法的流量识别系统。4、通过进行流量采集和测试,从正确肯定率、建模时间、测试时间、算法的模型描述简洁度、CPU使用率和内存消耗等指标对两系统的性能进行综合评估。5、通过对两系统的综合评估,从正确肯定率、实时性、端口的易变性、以及CPU使用率和内存消耗等方面对两系统进行了比较。分析了基于分类算法与基于聚类算法流量识别系统各自的优缺点及应用场景。