论文摘要
以流媒体分发为主的应用网络的突现导致网络流量指数级增长,如P2P流,而且伴随着DDOS(Distributed Denial of Service)攻击、蠕虫攻击等流量也夹杂其中,对网络的稳定和正常运行构成严重威胁。因此,对网络流量的构成进行深入分析,及时把握网络流量的性质、比例和变化,并采取相应的措施成为了当前网络管理的首要任务。把网络流的srcIP、dstIP、Protocol、srcPort和dstPort进行五元组等级聚类的方法称为网络流的多维聚类。在对原始的多维聚类算法和多维聚类等级树的结构进行分析的基础上,对原始的多维聚类算法进行改进。采用先按照Protocol、srcPort和dstPort进行三元组聚类,在挖掘出显著的三元组规则后,再把srcIP和dstIP的单维聚类结果与之结合,得出显著的五元组规则的方法来完成多维聚类。其中,采用两种新方法来处理多维聚类树特有的菱形结构,避免重复派生和重复匹配操作,分别是:先采用自顶向下后采用自底向上的方法构造多维聚类树和直接限定重复节点只在某一分支派生。既减少了每次匹配多维规则时的NetFlow表长度,又减少了需要用NetFlow表来匹配的多维规则数目,从而提高了原始的多维聚类算法的效率。在网络流的多维聚类结果中,根据每条多维规则的srcIP和dstIP分布情况,定义IP熵,利用IP熵来描述srcIP和dstIP的分布离散程度。结合IP熵、IP前缀和P2P流的双向性定义了识别P2P流的指标sp2p。根据计算出来的每条多维规则的srcIP和dstIP的sp2p值大小,判断这条多维规则是否为P2P流。最后利用广域网和局域网的NetFlow数据对系统进行了性能和功能测试。实验结果表明:改进后的多维聚类算法有效地降低了原始的多维聚类算法的时间复杂度;同时通过多维流挖掘,可以清楚了解当前网络流量的构成情况;而且,系统能够识别出占网络总流量比例较大的多种P2P流,如BitTorrent、PPLive等。