论文摘要
近年来,随着P2P技术应用的范围不断扩大,以及P2P流媒体技术的不断扩展,P2P技术对网络资源的占用问题越来越严重,引起网络服务提供商和网络运营商的高度重视。在目前有限的网络带宽下,P2P相关应用占用了大部分的带宽,已经影响到了用户们的正常应用。因此,研究如何识别已知和未知的P2P流量,并对其进行特征提取和分类,成为亟待解决的问题。目前对P2P流量的检测技术可分为两类:深层数据包检测技术和基于流特征的检测技术,而对P2P流媒体的检测的相关研究还处在空白阶段,常用的就是采取特征码匹配的方式进行识别。为了能更好的提取特征码,本文做了以下工作。提出一种基于统计特征的特征码自动提取算法,对已知和未知的P2P流媒体应用都能达到很好的效果。重点介绍了特征码自动提取算法,并与已有的算法进行比较,对比几种算法的优缺点。在基于统计的特征码自动提取算法中,包含位置信息的数据分片很好地保留了数据包负载位置信息特征,通过高效的HASH算法,实现了大流量环境下的实时特征码提取。并提出了相应的特征码归并策略以及相应的淘汰策略,保证了特征码的可用性、稳定性。设计并实现了一个原型系统,系统包含了三个模块:数据处理模块、特征码自动提取模块和特征码归并与重验证模块。在此基础上提出了对基于统计的特征码自动提取算法的几种性能优化策略,并用实际测试证明了优化策略的正确性和高效性。在实际网络环境下对系统进行了测试,实验结果表明,系统在千兆网环境下能够对P2P流媒体流量进行实时、有效的特征码提取。