论文摘要
随着网络技术的发展,互联网已成为现代社会不可或缺的一部分,其核心——域间路由系统的生存性问题受到工业界和学术界的极大关注。由于互联网的规模巨大、分布自治、动态演化,BGP协议缺陷等特点,以及路由协议与网络拓扑间存在复杂依赖关系等原因,域间路由系统的生存性问题由来已久并将长期存在。本文针对互联网上存在的两类严重威胁:前缀劫持与关联故障,深入系统地研究了域间路由系统生存性的影响因素及内在机理,对于互联网的安全防御、故障恢复和协议改进等具有重要意义。本文的主要贡献包括以下五个方面:首先,针对当前缺乏有效刻画路由变化特征的问题,提出了基于AS介数变化的域间路由特征刻画方法,分别针对目的毗邻的路由和全网范围的路由,识别出路由变化的时间、拓扑和关联特性;应用该方法分析了四次重大事件后的互联网路由变化,包括2008年2月的You Tube被劫持事件,2011年1月的AS4761前缀劫持事件,2011年3月的日本“311”大地震,以及2010年4月的SEA-ME-WE 4海底电缆故障。研究结果显示,前缀劫持中的攻击者和受害者的直接服务提供商是扩大攻击影响力的关键部位;由于电缆损坏造成的路由震荡和拥塞严重影响了路由路径的质量。这四次事件的分析为本文后续的四部分研究内容提供了真实的问题背景和案例,也是本文研究域间路由系统生存性的基础。其次,针对传统互联网环境下,前缀劫持检测机制存在的检测准确率低和部署效率低的缺点,研究了前缀劫持对域间路由系统的影响,基于前缀劫持发生后流量分布的异常变化,提出了BGP前缀劫持检测系统:LDC。LDC部署在前缀拥有者的直接提供商处,被动地监测流量分布变化,旨在利用数据平面的信息检测控制平面的问题,具有检测准确率高、部署效率高的优点,以及对攻击者定位和向受害者告警的能力。通过大规模的前缀劫持和AS失效事件的模拟实验,评估了LDC的检测阈值、前缀注册策略、工作模式与检测准确率之间的关系。并使用真实的历史路由数据,重现You Tube前缀劫持事件,论述系统的检测过程和优势。第三,针对当前缺乏在复杂网络环境中分析前缀劫持影响的问题,首次研究了云计算环境中,多攻击者和多受害者的前缀劫持对域间路由系统的影响。本文将此问题建模为目标规划任务,在一定的条件约束下,理性地规划前缀劫持以获得最大的影响力,并通过遗传算法对目标规划问题求解。经过大量模拟实验发现,受害者的数量对攻击效果的影响比攻击者更重要;前缀劫持的影响力并不总是随着攻击者和受害者数量的增加而增加,相反,如果受害者的数量超过20,攻击影响力将逐渐减少为0;另外,在目标规划中,AS的度数是一项主要的参考指标,以度数高的攻击者劫持度数高的受害者将获得较高的影响力。该研究结果可以使研究人员和云服务提供商更好地理解云计算网络生存性的影响因素,并为前缀劫持的防御工作提供指导意见。第四,针对域间路由系统在发生级联故障时出现的“虚拟断链”和“自动恢复”特性,首次提出了域间路由系统的级联故障模型CAFEIN(model for CAscading Failur Es in INter-domain routing system)。定义了域间路由系统生存性的两个度量指标:连通率和重路由消息数。基于此模型,分析了域间路由系统生存性的影响因素,级联故障的影响范围,以及级联故障的传播过程。从模拟结果中得到以下结论:一是由于BGP数据平面和控制平面共存,域间路由系统受到由链路故障引发的级联故障的影响,给核心AS,特别是低等级的核心AS带来大量的额外负担,减弱了其路由选择能力。二是级联效应将在链路的容忍因子小于等于0.1时被放大。三是蓄意攻击比随机失效的影响力大,但由于域间路由系统中独特的自动恢复机制,使得其差异并没有复杂网络的相关研究中得出的结果那样显著。四是级联效应越明显,流量负载高的链路出现拥塞的概率越大,距离初始故障近的链路出现拥塞的概率越大。最后,针对如何评估逻辑网络在较大范围物理故障下的生存性这一开放性问题,首次提出了域间路由系统的区域故障模型REFER(model for REgional Failur Es in inter-domain Routing system),根据域内路由和域间路由不同的路由策略,以更细的粒度评估区域故障对域间路由系统生存性的影响。以真实的互联网拓扑和地理位置信息为基础,模拟了网络中重要IXP所处城市发生故障的场景。模拟结果显示当前互联网在城市级单点区域故障下具有较强的生存性,仍能够保证绝大多数的源AS和目的 AS之间的连通性,并且由于大量路由更新都发生在网络的边缘,因此对域间路由系统的核心传输部分影响较小。