论文摘要
P2P(Peer to Peer)技术在Internet中占有举足轻重的地位,近年来迅速成为计算机网络界关注的焦点;但是P2P技术发展的同时带来了网络带宽的大量占用、知识产权纠纷、安全威胁等问题。为了促进P2P网络健康发展,对P2P数据流进行有效的监管,准确识别P2P数据流显然已经成为P2P流管理中重要的研究课题。本文针对目前P2P数据流检测中存在的小数据流检测准确率不高、伪装的P2P数据流和新出现的P2P数据流学习能力低,识别效率不高的问题,设计实现了一个改进的基于SVM的P2P数据流识别技术,主要围绕以下几方面的问题进行了研究和讨论:(1)在数据包采样阶段应用SGS变频率数据包采样策略,相比于传统的固定频率数据包采样方法,能够实时地灵活控制数据包采样频率,根据现实网络情况更好地实现小数据流的采样,创建均衡的数据流量样本集;(2)设计构造了SVM训练样本集,根据正例反例样本的均衡性,样本代表性等原则,对不同的P2P网络应用和非P2P网络应用中200余个流量特征进行统计分析,权衡P2P样本训练的效率与分类器准确率,选取五个数据流特征作为样本特征;(3)首次训练采用训练样本集生成数据流分类器,之后将增量学习算法应用到SVM迭代训练当中,将分类错误的样本与已有的支持向量集组成新的训练样本,并且对新的训练样本进行分组训练以达到对样本学习规模、训练时间复杂度和迭代训练样本对SVM分类器灵敏度影响的控制。本文采用Andew Moore数据集和某网络服务器截获的数据流集作为测试样本,分别应用本文所实现的分类器对普通流量数据流、小流量数据流的检测精度、漏报率和误报率三个性能指标做了统计分析;并且与传统的SVM技术、BP神经网络技术、贝叶斯技术、决策树模型的数据流分类器的测试结果做了对比。