基于机器学习的P2P流量识别技术研究

基于机器学习的P2P流量识别技术研究

论文摘要

P2P应用的出现和蓬勃发展使互联网流量组成发生显著变化,P2P流量已跃居成为互联网第一大流量,这给网络管理带来诸多问题,对流量监控提出更高要求。同时,为逃避检测,P2P应用正朝着端口动态化、负载加密化的方向迅速发展。传统的流量识别技术已经难以有效识别出P2P流量,而基于机器学习的P2P流量识别技术不依赖端口和负载信息,因此,成为近年来的研究热点。本文依托国家863课题“高可信网络业务管控系统”,针对基于机器学习的P2P流量识别和应用级分类方面存在的问题,提出了一种基于组合式特征选择算法和支持向量机(SVM)的P2P流量识别方法,以及一种基于改进的核模糊C均值聚类算法的P2P应用级分类方法。通过将上述两种方法有机结合,设计了一种P2P流量实时识别原型系统,并予以工程实现。主要内容如下:1)当前网络流量识别领域采用过滤型(filter)特征选择算法,识别准确率不够高,为此,提出一种组合式特征选择算法R-GA,该算法结合过滤型和封装型(wrapper)两种特征选择算法的优点,首先采用快速的ReliefF算法去除不相关特征,然后利用遗传算法(GA)结合具体的学习算法去除冗余特征,能够有效选择出最优的特征子集;基于该算法,以SVM为分类器,提出一种新的P2P流量识别方法R-GA-SVM,该方法在采用R-GA算法选择最优流特征子集的同时,通过R-GA优化SVM的模型参数,得到最佳的SVM分类模型。实验结果表明,该方法与不进行特征选择和采用filter型特征选择算法的SVM识别方法相比,能以更少的流特征获得更高的P2P识别性能。2)当前P2P流量的应用级分类研究还不成熟,对两大主流P2P应用(P2P文件共享与P2P多媒体传输)的流统计特性进行深入分析后,总结出二者在包长、包到达时间间隔和TCP标志位三个特征上的差异性,然后针对当前核模糊C均值聚类算法(KFCM)易陷入局部最优的缺陷,提出一种改进的算法I-PSO-KFCM。该算法利用KFCM分集聚类的结果初始化粒子群,得到逼近全局最优的聚类中心,再在全集上进行KFCM聚类,能快速收敛至全局最优解,提高聚类精度。基于该算法,实现了P2P流量的应用级分类,并通过实验验证了其有效性。3)采用早识别技术对上述两种方法进行实时性扩展,设计并实现了P2P流量实时识别原型系统,并对系统的性能进行分析和测试。测试结果表明,该系统运行稳定,根据所选的流特征,利用每条流前10个数据包,可达到85%以上的P2P实时识别和分类准确率,在识别性能和资源消耗上取得了较好的平衡,达到了高可信网络业务管控系统的研发需求。

论文目录

  • 目录
  • 表目录
  • 图目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.1.1 P2P 流量识别的提出
  • 1.1.2 课题来源及意义
  • 1.2 P2P 流量识别的研究现状
  • 1.3 研究思路与主要工作
  • 1.4 本文结构安排
  • 第二章 基于机器学习的P2P 流量识别模型及算法分析
  • 2.1 引言
  • 2.2 问题抽象
  • 2.2.1 相关定义
  • 2.2.2 识别模型
  • 2.3 识别性能衡量指标
  • 2.4 识别算法分析
  • 2.5 本章小结
  • 第三章 基于组合式特征选择算法和支持向量机的P2P 流量识别方法
  • 3.1 引言
  • 3.2 流量识别领域特征选择算法分析
  • 3.3 R-GA 算法设计
  • 3.3.1 R-GA 算法流程
  • 3.3.2 候选特征集合
  • 3.3.3 最优特征子集
  • 3.4 R-GA-SVM 识别方法
  • 3.4.1 SVM 介绍
  • 3.4.2 R-GA-SVM 流程
  • 3.5 实验分析
  • 3.5.1 实验数据集
  • 3.5.2 实验结果分析
  • 3.6 本章小结
  • 第四章 基于改进核模糊C 均值聚类算法的P2P 应用级分类方法
  • 4.1 引言
  • 4.2 P2P 文件共享与多媒体传输的流统计特征分析
  • 4.3 改进的核模糊C 均值聚类算法I-PSO-KFCM
  • 4.3.1 FCM 介绍
  • 4.3.2 KFCM 介绍
  • 4.3.3 I-PSO-KFCM 算法设计
  • 4.4 实验分析
  • 4.4.1 实验数据集
  • 4.4.2 实验结果分析
  • 4.5 本章小结
  • 第五章 P2P 流量实时识别原型系统设计与实现
  • 5.1 引言
  • 5.2 系统概述
  • 5.3 系统主要模块设计与实现
  • 5.3.1 流统计特征值实时计算模块
  • 5.3.2 P2P/非P2P 二元流量识别模块
  • 5.3.3 P2P 流量应用级分类模块
  • 5.3.4 流识别结果存储模块
  • 5.4 系统性能测试
  • 5.4.1 测试环境
  • 5.4.2 系统性能关键参数N 的确定
  • 5.4.3 系统运行结果分析
  • 5.5 本章小结
  • 结束语
  • 参考文献
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    • [1].基于深度报文检测和机器学习的加密流量识别方法[J]. 计算机产品与流通 2020(10)
    • [2].基于新型网络结构流量识别方法研究[J]. 电脑编程技巧与维护 2018(04)
    • [3].对等网络流量识别技术研究[J]. 中国新通信 2017(05)
    • [4].网络加密流量识别研究综述及展望[J]. 通信学报 2016(09)
    • [5].网络流量识别特征码自动提取系统分析[J]. 计算机光盘软件与应用 2014(19)
    • [6].网络流量识别方法及比较研究[J]. 今日科苑 2015(08)
    • [7].互联网流量识别技术的研究及实现[J]. 广东通信技术 2008(03)
    • [8].特殊网络流量识别综述[J]. 电脑知识与技术 2018(17)
    • [9].电力信息通信网络流量识别技术研究[J]. 信息化研究 2015(01)
    • [10].基于机器学习的流量识别技术综述与展望[J]. 计算机工程与科学 2018(10)
    • [11].基于数据流多维特征的移动流量识别方法研究[J]. 四川大学学报(自然科学版) 2020(02)
    • [12].网络协议流量识别方法研究[J]. 郑州大学学报(理学版) 2019(04)
    • [13].一种基于相似度的高效网络流量识别方案[J]. 山东大学学报(理学版) 2014(09)
    • [14].非平衡网络流量识别方法[J]. 计算机应用 2018(01)
    • [15].基于有督导机器学习的网络流量识别系统[J]. 现代电子技术 2015(21)
    • [16].基于支持向量机的加密流量识别方法[J]. 东南大学学报(自然科学版) 2017(04)
    • [17].基于卷积神经网络的网络流量识别技术研究[J]. 四川大学学报(自然科学版) 2017(05)
    • [18].基于载荷特征的P2P流量识别方法[J]. 中国科技信息 2014(12)
    • [19].基于卷积神经网络的加密流量识别方法[J]. 南京邮电大学学报(自然科学版) 2018(06)
    • [20].一种EPON串接前端的设计与实现[J]. 光通信研究 2019(01)
    • [21].P2P流量监测系统的设计[J]. 电子设计工程 2016(11)
    • [22].基于特征分析的家庭网络流量识别与系统实现[J]. 计算机工程与应用 2015(10)
    • [23].基于信息熵的流量识别方法[J]. 计算机工程 2009(20)
    • [24].基于神经网络的变电站异常网络流量识别[J]. 信息技术 2020(05)
    • [25].电力信息通信网络流量识别技术探讨[J]. 通讯世界 2016(12)
    • [26].基于DPI的流量识别系统的开发与设计[J]. 数字通信世界 2019(04)
    • [27].数据中心中面向光互联的流量识别与调度研究[J]. 通信学报 2018(09)
    • [28].P2P流量识别技术的研究[J]. 民营科技 2013(12)
    • [29].P2P业务流量识别与系统部署方案研究[J]. 邮电设计技术 2009(06)
    • [30].面向未知协议的流量识别技术研究[J]. 信息网络安全 2019(10)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于机器学习的P2P流量识别技术研究
    下载Doc文档

    猜你喜欢