基于机器学习算法的P2P流量分类研究

基于机器学习算法的P2P流量分类研究

论文摘要

P2P应用的快速增长,带来网络拥塞、大量消费网络带宽等诸多问题,而传统的基于端口与有效载荷的网络流量分类方法存在着很多缺陷,研究按照5元组(源IP、源Port、目的IP、目的Prot及IP协议)的定义,将P2P报文分成双向TCP或UDP流,抽取独立于端口、协议和有效载荷的原始数据报文的信息作为P2P流的特征,形成特征向量,用特征向量表示流,流的分类类别为P2P的协议类型。用提出的基于ReliefF-CFS的方法选择流的特征子集,该方法结合ReliefF和基于相关性(CFS)两种特征选择方法,产生适合于分类P2P流的特征子集。首先利用ReliefF特征选择方法把候选特征按与类别相关性的大小排序,通过设定的阈值选择与类别相关性大的特征子集作为CFS选择方法的初始集,然后利用CFS结合正向搜索得到最终的较优特征子集。研究使用C4.5决策树、支持向量机(SVM)、K近邻(KNN)三种机器学习算法构建P2P流量分类器,利用获取的原始数据寻找分类器的最优分类参数,主要采用分类准确率和分类时间标准进行评估;并研究统计原始数据报文的部分信息分类P2P流,实验中分别统计流的双向50、100、150、200个报文信息,结果显示不仅减少了特征统计计算的复杂度和分类的时间,而且有更高的分类准确率。为了让研究的成果能有实际的应用价值,通过构建相应的硬件、软件环境,对P2P流量的在线实时分类作了初步的研究。设计并实现了基于机器学习算法的P2P流量分类原型系统,系统分类分类器构建和分类两个阶段,每个阶段有数据采集、数据解析、流的合成以及分类四个模块。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 研究背景
  • 1.2 研究目的及意义
  • 1.3 国内外研究现状
  • 1.3.1 基于端口(Port-based)方法的研究现状
  • 1.3.2 基于有效载荷(Payload-based) 方法的研究现状
  • 1.3.3 基于机器学习的网络流量分类研究现状
  • 1.3.4 基于机器学习的P2P 流量分类研究现状
  • 1.3.5 不同层面的流量分析
  • 1.4 研究内容及组织结构
  • 1.4.1 论文研究内容
  • 1.4.2 论文组织结构
  • 第二章 基于RELIEFF-CFS 的P2P 流量特征选择
  • 2.1 P2P 流的定义及特征产生
  • 2.1.1 P2P 流的定义及表示
  • 2.1.2 P2P 流特征的产生
  • 2.2 特征选择理论与研究现状
  • 2.3 基于RELI EFF-CFS 的算法进行特征选择
  • 2.3.1 用基于ReliefF 算法对P2P 流特征进行初步选择的方法
  • 2.3.2 用CFS 方法选择较优特征子集
  • 2.4 实验结果与分析
  • 2.5 本章小结
  • 第三章 基于机器学习P2P 流量分类器研究
  • 3.1 基于支持向量机(SVM)的P2P 流量分类器方法
  • 3.1.1 核函数介绍
  • 3.1.2 最大间隔原则
  • 3.2 基于C4.5 决策树的P2P 网络流量分类器
  • 3.3 基于KNN 的P2P 流量分类器
  • 3.4 实验结果与分析
  • 3.4.1 机器学习最优参数搜索
  • 3.4.2 机器学习算法参数设置
  • 3.4.3 样本数量与分类准确率的关系
  • 3.4.4 类别数量与分类准确率的关系
  • 3.4.5 使用独立测试样本集对分类器进行测试
  • 3.4.6 实验结论
  • 3.5 本章小结
  • 第四章 基于机器学习的P2P 流量分类系统的设计
  • 4.1 系统框架
  • 4.2 数据采集模块的设计
  • 4.3 数据解析模块的设计
  • 4.4 合成流模块的设计
  • 4.5 分类模块的设计
  • 4.6 本章小结
  • 第五章 基于机器学习的P2P 流量分类系统的实现
  • 5.1 分类器构建阶段的实现
  • 5.1.1 数据采集功能的实现
  • 5.1.2 数据解析、流的合成模块的实现
  • 5.1.3 分类模块的实现
  • 5.1.4 系统主要功能介绍
  • 5.1.5 分类器构建阶段实验
  • 5.2 在线分类阶段的实现
  • 5.2.1 在线数据的捕获、解析
  • 5.2.2 在线流的的合成
  • 5.2.3 在线分类策略
  • 5.3 在线分类
  • 5.3.1 在线分类实验环境的构建
  • 5.3.2 在线分类算法
  • 5.3.3 在线分类实验
  • 5.4 本章小结
  • 第六章 结论
  • 6.1 结论
  • 6.2 进一步的工作
  • 参考文献
  • 附录
  • 致谢
  • 相关论文文献

    • [1].浅谈大数据下的机器学习算法[J]. 科技创新导报 2019(24)
    • [2].人工智能背景下量子机器学习算法的概论[J]. 信息与电脑(理论版) 2020(04)
    • [3].机器学习算法保险场景应用[J]. 合作经济与科技 2020(09)
    • [4].最新研发机器人与机器学习算法相连可和科学家一起做实验[J]. 防灾博览 2020(04)
    • [5].机器学习算法在麻醉领域的应用[J]. 中国医学科学院学报 2020(05)
    • [6].大数据下的机器学习算法探讨[J]. 通讯世界 2019(05)
    • [7].大数据下的机器学习算法探讨[J]. 通讯世界 2017(06)
    • [8].大数据背景下机器学习算法的综述[J]. 中国信息化 2019(04)
    • [9].基于机器学习算法构建手机恶意软件研判模型的研究[J]. 网络安全技术与应用 2017(09)
    • [10].基于机器学习算法的舰船影像处理算法[J]. 舰船科学技术 2020(06)
    • [11].机器学习算法在智慧农业中应用的进展[J]. 计算机产品与流通 2020(04)
    • [12].大数据背景下机器学习算法的综述[J]. 信息记录材料 2018(05)
    • [13].基于机器学习算法的人脸识别鲁棒性研究[J]. 中国电子科学研究院学报 2017(02)
    • [14].基于机器学习算法的大数据处理[J]. 电子技术与软件工程 2015(23)
    • [15].机器学习算法在无人驾驶中的应用[J]. 机器人产业 2017(04)
    • [16].机器学习算法在数据分类中的应用价值分析[J]. 电子世界 2019(24)
    • [17].基于SMOTE的机器学习算法准确度影响研究[J]. 廊坊师范学院学报(自然科学版) 2019(04)
    • [18].机器学习算法与应用[J]. 北京电子科技学院学报 2017(04)
    • [19].机器学习算法在智慧农业中应用的进展[J]. 通化师范学院学报 2019(06)
    • [20].基于机器学习的基础算法研究综述[J]. 卫星电视与宽带多媒体 2020(08)
    • [21].机器学习算法在入侵检测中的应用研究[J]. 电脑与电信 2020(07)
    • [22].基于情感知识和机器学习算法的组合微文情感倾向分类研究[J]. 情报杂志 2018(05)
    • [23].机器学习算法可近似性的量化评估分析[J]. 计算机研究与发展 2017(06)
    • [24].网络协议流不平衡环境下基于机器学习算法的在线流量分类方法[J]. 科学技术与工程 2017(28)
    • [25].机器学习算法运用到电力系统继电保护[J]. 电气应用 2018(18)
    • [26].机器学习算法信用风险预测模型[J]. 微型电脑应用 2019(02)
    • [27].机器学习算法在糖尿病预测中的应用[J]. 贵州大学学报(自然科学版) 2019(02)
    • [28].大数据下的机器学习算法探讨[J]. 中国新通信 2018(21)
    • [29].机器学习算法在数据挖掘中的应用[J]. 电子世界 2019(13)
    • [30].基于机器学习算法的主机恶意代码检测技术研究[J]. 网络与信息安全学报 2017(07)

    标签:;  ;  ;  

    基于机器学习算法的P2P流量分类研究
    下载Doc文档

    猜你喜欢