具有规模适应性的互联网流量识别方法研究

具有规模适应性的互联网流量识别方法研究

论文摘要

互联网流量识别是互联网流量测量领域的研究热点问题之一。以P2P流量为主要对象的流量识别、管理已经成为学术界、网络工程界、国家有关部门普遍关心的问题。高效、准确地识别互联网流量对于分析网络发展趋势、提供服务质量保证、动态访问控制、网络合法管理、异常行为检测等都有很重要的现实意义。传统的以知名端口和应用层载荷特征码为基础的流量识别方法难以应对端口伪装、端口随机选择和应用层数据加密等反监测技术趋势。基于应用行为和流特征的方法已经受到研究人员关注,但识别准确率、实时处理能力、自动学习能力和新应用发现能力等都是需要面对的挑战。具有规模适应性的互联网流量识别方法的研究目标是面向不同网络规模、不同宏观程度以及不同识别粒度的分析需求,研究在不同层次和不同范围内对互联网传输的内容进行区分,对互联网应用行为进行分析的有效方法和组织方式。并从智能学习特性、在线实时处理能力、混合分类实施方式以及不同范围内的分布式处理方法等方面提出了新的目标。论文基于此研究面向单点、有限网络规模和互联网范围的流量识别和行为分析方法。针对上述关键性问题展开研究,主要贡献和创新包括以下几点:(1)提出基于数据引力和细分识别空间理论的半监督学习(DGFDRS-SSL)模型,在此基础上研究基于流统计特征的机器学习流量识别方法。把样本空间的数据点视为质量点,定义数据点之间的欧式距离为样本距离,借用万有引力定律提出数据空间中的数据引力(DG)理论,基于数据引力实施样本聚类。提出细分识别空间(FDRS)理论,对分类识别空间进行不同维度和细度的划分,采用染色的方法对划分后的识别空间进行区分,形成一个具有细分特征的识别空间。数据样本聚类后把聚类结果映射到细分识别空间,在染色原则指导下根据有“标记”样本对识别空间染色得到半监督学习分类训练模型。把模型用于面向单点的流统计特征流量识别,克服了传统有导师学习方法需要大量有分类“标记”样本缺点,具有较高的性能和新应用发现的能力。(2)定义了互联网应用群体模型,提出面向有限网络规模的互联网应用群体发现和流量识别方法。分析互联网应用的特性,定义互联网中不同应用行为的主机连接特征图。结合社会群体概念和有限网络范围内的行为主机之间聚集、共享和连接特征,研究基于行为特征图的动态互联网应用群体生成和发现方法。从不同层次和位置收集具有不同方向属性的节点行为信息用于分析有限规模的网络行为。借助宏观的群体特征发现实施微观粒度的流量识别、端口伪装和跨协议传输行为发现。适于有限规模内具有分布式和协同特征的应用行为分析,不受易变易伪装特征的影响。(3)提出了面向互联网规模的自组织流量识别联盟模型。结合DHT(分布式哈希表)的优点,研究利用虚拟存储和相同前缀Hash技术实现索引资源本地存储的方法,设计改进的Chord覆盖网络路由算法,并基于此设计无中心的自组织互联网流量识别和行为分析联盟模型。具有本地流量识别和行为分析功能的节点在遵守联盟协议的条件下可以加入联盟,并在联盟成员之间协助流量识别和行为分析,共享流量特征、数据样本和识别经验。克服了传统方法只能在有限组织机构之间通过固定设备和协议的协助,可扩展性差和开放性不足等缺点。(4)提出并设计了一种获取有分类“标记”的真实网络流量数据样本的方法,结合网络处理器实现了流量样本采集平台。设计客户端,利用静态过滤监测机制,采用Hook方式监视本地应用程序的网络调用。根据发起网络流量的应用程序或进程识别应用,并把对应程序分类信息标签嵌入相应数据包的TOS标志位,实现互联网流量的真实分类“标记”,同时具有流量分类验证功能。在网关出口利用网络处理器的快速硬件匹配能力检测数据包TOS标志位,采集带分类“标记”的流量样本,预处理后发布使用,实用有效。(5)提出了一种基于机器学习的在线流量识别方法,并结合网络处理器实现1000Mbps有限线速处理目标。研究互联网流量的时序相关性特征,获取行为节点之间的前序流量信息后进行分类识别,随后利用得到的前序流的识别结果指导后续流识别和分类,并随时根据获取流特征的变化进行调整和修正。发挥IXP-2400网络处理器的高速并行处理特性和软计算理论的智能特性,实现基于网络处理器和服务器相结合的软、硬件混合的流量识别平台,具备1000Mbps的有限线速处理能力。使基于机器学习的流量识别方法具有一定的在线实时识别能力。

论文目录

  • 摘要
  • ABSTRACT
  • 主要术语及符号说明
  • 第一章 绪论
  • 1.1 研究内容和对象
  • 1.2 论文的研究背景
  • 1.3 论文所用术语界定
  • 1.4 论文的主要工作及技术路线
  • 1.5 论文的特点和创新之处
  • 1.6 论文的组织结构
  • 第二章 互联网流量现状分析及识别方法研究进展
  • 2.1 互联网流量现状
  • 2.1.1 应用流量种类迅速增长
  • 2.1.2 对底层网络冲击大
  • 2.1.3 应用技术更新发展迅速
  • 2.1.4 涉及利益多方博弈加剧
  • 2.2 互联网流量特征
  • 2.2.1 静态显示特征
  • 2.2.2 动态特征
  • 2.3 互联网流量识别方法
  • 2.3.1 端口匹配识别
  • 2.3.2 深度包检测(DPI)识别
  • 2.3.3 行为规则匹配识别
  • 2.3.4 基于流特征的识别
  • 2.3.5 识别方法总结
  • 2.4 互联网流量识别发展趋势
  • 2.5 本章小结
  • 第三章 基于单点流量统计特征的机器学习识别
  • 3.1 半监督学习模型
  • 3.2 数据引力理论
  • 3.2.1 引力定律
  • 3.2.2 引力与数据相似性
  • 3.2.3 数据引力分类
  • 3.3 数据引力聚类
  • 3.3.1 可聚类样本选择
  • 3.3.2 引力聚类
  • 3.4 基于细分识别空间的分类
  • 3.4.1 识别空间定义
  • 3.4.2 细分识别空间
  • 3.4.3 识别空间染色
  • 3.5 DGFDRS-SSL模型
  • 3.5.1 聚类和染色
  • 3.5.2 识别分类
  • 3.6 基于DGFDRS-SSL的流量识别
  • 3.6.1 问题定义
  • 3.6.2 实验数据
  • 3.6.3 特征选择
  • 3.6.4 实验与分析
  • 3.7 本章小结
  • 第四章 面向有限网络规模的互联网应用群体发现
  • 4.1 互联网应用群体特征
  • 4.2 互联网应用群体模型
  • 4.2.1 群体定义
  • 4.2.2 群体模型
  • 4.3 有限规模的应用群体发现
  • 4.3.1 网络规模
  • 4.3.2 测量点及方向
  • 4.3.3 群体特征
  • 4.3.4 群体生成和发现
  • 4.4 互联网应用群体发现的应用
  • 4.4.1 流量识别
  • 4.4.2 端口伪装发现
  • 4.4.3 跨协议传输行为发现
  • 4.5 实验与分析
  • 4.5.1 实验数据及方法
  • 4.5.2 实验及结果分析
  • 4.6 本章小结
  • 第五章 面向互联网的分布式自组织流量识别联盟模型
  • 5.1 分布式流量识别联盟
  • 5.1.1 模型结构
  • 5.1.2 联盟节点
  • 5.1.3 联盟协议设计原则
  • 5.2 基于改进Chord的自组织联盟协议
  • 5.2.1 Chord基本路由过程
  • 5.2.2 改进的Chord路由模型
  • 5.3 联盟协助
  • 5.3.1 分类协助
  • 5.3.2 启动策略
  • 5.3.3 资源共享
  • 5.4 实验与分析
  • 5.4.1 实验平台
  • 5.4.2 实验结果分析
  • 5.5 本章小结
  • 第六章 基于网络处理器的流量样本采集和识别平台
  • 6.1 网络处理器简介
  • 6.2 流量样本采集和识别平台框架
  • 6.3 应用分类"标记"客户端
  • 6.3.1 流量获取
  • 6.3.2 网络调用截获处理
  • 6.3.3 应用"标记"实现技术
  • 6.3.4 网络调用分类查找
  • 6.3.5 网络数据包应用分类"标记"
  • 6.4 流量采集和样本预处理
  • 6.5 互联网流量识别
  • 6.5.1 系统结构设计
  • 6.5.2 线速识别
  • 6.5.3 基于流统计特征的有限线速识别
  • 6.6 实验与分析
  • 6.7 本章小结
  • 第七章 总结和展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表和待发表的学术论文目录
  • 攻读学位期间参与的科研项目情况
  • 学位论文评阅及答辩情况表
  • 英文论文
  • 论文1
  • 论文2
  • 相关论文文献

    • [1].电信运营商应重视互联网企业逐步旁路全球互联网流量的趋势[J]. 广东通信技术 2018(11)
    • [2].应重视互联网企业逐步旁路互联网流量趋势[J]. 中国电信业 2018(08)
    • [3].互联网流量智能疏导策略研究[J]. 互联网天地 2016(12)
    • [4].全球约一半互联网流量来自“机器人”[J]. 中国信息安全 2017(03)
    • [5].直播带货 互联网流量变迁简史[J]. 法律与生活 2020(01)
    • [6].箴言[J]. 中国经济信息 2017(06)
    • [7].去陌生人家里办公,共享经济还可以这么玩[J]. 现代青年 2017(04)
    • [8].报告称互联网流量2015年将增至目前四倍[J]. 华人世界 2011(07)
    • [9].警惕“互联网流量为王”思潮,坚守马克思主义信仰[J]. 吉林广播电视大学学报 2020(03)
    • [10].基于深度置信网络的互联网流量预测方法[J]. 电信工程技术与标准化 2020(10)
    • [11].1994-2019中国互联网流量争夺史[J]. 计算机与网络 2019(11)
    • [12].基于行为特征学习的互联网流量分类方法[J]. 电信科学 2016(06)
    • [13].工信部:移动互联网流量暴增 手机流量贡献九成[J]. 电子技术与软件工程 2015(08)
    • [14].众安科技开启技术精耕时代[J]. 理财周刊 2019(48)
    • [15].对互联网流量分析技术研究[J]. 无线互联科技 2014(08)
    • [16].互联网流量发展的总体趋势分析[J]. 通信世界 2016(20)
    • [17].数据挖掘在互联网流量经营中应用与研究[J]. 信息通信 2016(08)
    • [18].数字[J]. 中华儿女 2020(03)
    • [19].下沉中凝聚向上的力量[J]. 现代广告 2020(13)
    • [20].交锋[J]. 华东科技 2013(08)
    • [21].移动互联网流量控制策略[J]. 电信技术 2013(08)
    • [22].51%互联网流量来自非人类用户[J]. 新闻记者 2012(04)
    • [23].移动互联网流量管理相关问题探讨[J]. 电信科学 2009(06)
    • [24].移动互联网流量分类的多特征集合和多类别标签研究[J]. 计算机应用研究 2020(11)
    • [25].互联网流量本网率提升研究[J]. 电信技术 2014(04)
    • [26].移动互联网流量经营策略研究[J]. 邮电设计技术 2011(05)
    • [27].移动互联网流量经营分析系统方案研究[J]. 信息通信 2014(05)
    • [28].竞争法视野下互联网流量劫持行为法律问题研究[J]. 特区经济 2018(11)
    • [29].支撑超高速互联网流量工程的网络测量方法研究[J]. 北京邮电大学学报 2009(04)
    • [30].基于智能管道的移动互联网流量经营开放平台建设[J]. 电信工程技术与标准化 2013(04)

    标签:;  ;  ;  ;  ;  

    具有规模适应性的互联网流量识别方法研究
    下载Doc文档

    猜你喜欢