大规模分布式仿真系统容错关键技术研究

大规模分布式仿真系统容错关键技术研究

论文摘要

容错(fault tolerance)是分布式系统中一个富有挑战性的问题,也是当前大规模分布式仿真领域的一个研究热点。由于容错需要解决失效监控、状态保存与恢复及容错调度等一系列理论问题,同时,它又直接决定了分布式仿真系统的可靠性,因此,研究分布式仿真系统的容错具有重要的理论和实际意义。论文充分考虑了大规模分布式仿真系统的特殊性,结合网格的技术优势,对该类系统的容错需要解决的理论及工程实践问题进行了深入、系统的探索与研究。论文首先进行了分布式仿真容错系统(Distributed Simulation Fault-tolerant System,DS-FTS)的框架结构设计。分析了网格对解决分布式仿真系统中相关不足的意义,确立了基于网格技术实现DS-FTS的总体思路;分析了仿真系统容错的影响因素并引入了仿真系统全过程容错的思想;对仿真系统不同层次上可能发生的故障进行了分析并确定了DS-FTS的容错等级;对分布式仿真系统的容错设计模式进行了初步研究;分析了DS-FTS和仿真系统的相对关系,进行了DS-FTS的层次设计和功能结构设计,明确了DS-FTS需要解决的关键技术问题。失效探测是容错的前提,其性能受系统模型时间特性的影响。论文分析了大规模分布式仿真系统时间特性的特点,将不可靠失效探测器的思想引入到仿真系统的失效探测中,并在此基础上借鉴HLA仿真系统多联邦结构的特点提出了一种通用的、分布的层次式系统级失效探测算法Hi-UA-DSD。在该算法中,仿真节点被划分为多个分测试环,相应的失效探测分为环内失效探测和环间失效探测,前者基于UA-DSD算法,后者基于UA-DSD-Int算法。算法的正确性证明及评估结果表明,与其它算法相比,该算法具有更高的准确性、更小的网络开销、更低的诊断延迟和更好的可扩展性,可解决大规模分布式仿真系统的失效探测问题。此外,当系统规模相对较小时,可考虑用相对简单的UA-DSD算法替代Hi-UA-DSD。系统状态存储协议提供容错所需的系统状态数据。IEEE 1516-2000中提供了一种阻塞式的系统状态存储协议,这在实际使用时会给系统带来很大开销。根据对系统状态存储过程中仿真组件状态变化影响因素的分析,论文提出了一种非阻塞式的系统状态存储协议CICCP。该协议完整地解决了由于在系统状态存储期间允许时间推进导致所保存的RTI状态和对应成员状态时间上的不一致、由于成员问消息传递导致不同成员状态的不一致及in-transit消息问题。较原有协议,CICCP的开销大大降低。此外,为保证联邦恢复的一致性,对于一般HLA分布式仿真系统,论文提出了一种交叉时间推进的方法消除了零前瞻量对联邦恢复一致性的影响;对于分布式实时仿真系统,论文利用网络QoS(Quality of Service)技术对HLA的OMT(Obiect Model Template)及数据传输服务进行了局部扩展以保证网络的可重复性,从而最终保证联邦恢复的一致性。上述协议及解决方案可扩展用于解决其它类型的大规模分布式仿真系统的类似问题。不同的检查点文件存放策略的开销不同,而且上述失效探测及系统状态存储也会给系统带来开销。论文基于Markov链建立了分布式仿真系统的模型,以最大化系统的可用度为目标对上述问题进行了研究,给出了适用于分布式仿真系统的检查点文件存放策略及最佳心跳、检查点间隔的计算公式。该部分的研究是对前两部分研究的补充。容错调度算法是容错的最终体现,失效监控及系统状态存储都为容错调度服务。本部分首先基于ICM(Imprecise Computation Model)的思想,提出了一个容错调度算法框架ICM-FTSA。然后根据两种容错模型,提出了两类异构分布式仿真系统的容错调度算法:①提出了CSP-RTFT算法并进行了仿真评估,该算法基于一种改进的空闲处理机模型(Checkpoint-based Spare Processor,CSP)进行容错;②提出并分析了两个基于PB(Primary-Backup)模型的容错调度算法MW-RTFT和RC-RTFT:MW-RTFT基于最小最坏反应时间(Worst Case Response Time,WCRT)启发式规则进行主版本任务的调度,RC-RTFT则综合利用了最小可靠性代价及最小WCRT两种启发式规则进行主版本任务的调度;两个算法中副版本任务的调度都是基于最小WCRT启发式规则。两类算法可以满足不同情况下大规模分布式仿真系统的容错调度需求,并且都可以嵌入到ICM-FTSA中以产生更为灵活的算法。在工程实践方面,论文根据所设计的DS-FTS的框架结构,结合上述理论研究成果,分别实现了DS-FTS的失效探测模块、系统状态保存与恢复模块及容错调度模块。在具体应用方面,基于仿真系统全过程容错的思想对某HLA对抗仿真系统进行了重新设计、开发,并将DS-FTS用于为该仿真系统提供容错运行支撑。结果表明综合利用仿真系统全过程容错的思想及DS-FTS可基本解决分布式仿真系统的容错问题。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • §1.1 研究背景
  • §1.2 分布式系统容错的发展现状
  • 1.2.1 分布式计算领域中的容错研究
  • 1.2.2 仿真领域的容错研究
  • 1.2.3 分布式仿真系统容错的发展方向
  • §1.3 论文的主要研究内容、组织结构与主要贡献
  • 1.3.1 论文的主要研究内容
  • 1.3.2 论文的组织结构
  • 1.3.3 论文的主要贡献
  • 第二章 分布式仿真容错系统框架结构设计
  • §2.1 网格对解决分布式仿真系统相关问题的启示
  • 2.1.1 网格的演变
  • 2.1.2 对解决仿真系统相关问题的启示
  • §2.2 仿真系统的容错方法
  • 2.2.1 容错的影响因素
  • 2.2.2 仿真系统全过程容错
  • §2.3 分布式仿真容错系统的容错等级分析
  • 2.3.1 仿真系统故障分析
  • 2.3.2 容错等级分析
  • §2.4 分布式仿真系统的容错设计模式
  • 2.4.1 仿真系统的容错设计模式
  • 2.4.2 仿真任务的容错设计模式
  • §2.5 分布式仿真容错系统的框架结构设计
  • 2.5.1 DS-FTS的构成分析
  • 2.5.2 DS-FTS与仿真系统的相对关系分析
  • 2.5.3 DS-FTS的层次与功能结构设计
  • §2.6 小结
  • 第三章 大规模分布式仿真系统的失效探测算法研究
  • §3.1 分布式仿真系统的时间特性分析
  • §3.2 预备知识
  • 3.2.1 系统模型
  • 3.2.2 失效探测策略比较
  • 3.2.3 相关术语
  • §3.3 UA-DSD算法
  • 3.3.1 系统状态变化对算法的影响
  • 3.3.2 其它不确定性因素对算法的影响
  • 3.3.3 算法描述
  • 3.3.4 算法正确性证明
  • §3.4 HI-UA-DSD算法
  • 3.4.1 层次式失效探测策略
  • 3.4.2 UA-DSD-Int算法
  • 3.4.3 Hi-UA-DSD算法描述及正确性证明
  • 3.4.4 算法评估
  • 3.4.5 本部分的研究结论
  • §3.5 进一步讨论
  • §3.6 小结
  • 第四章 非阻塞式协同检查点协议及失效恢复一致性研究
  • §4.1 IEEE 1516-2000联邦存储协议分析
  • 4.1.1 IEEE 1516-2000中的联邦存储概述
  • 4.1.2 存储协议对比分析
  • §4.2 CICCP协议
  • 4.2.1 模型和理论
  • 4.2.2 相关工作
  • 4.2.3 HLA仿真系统分析
  • 4.2.4 CICCP协议的影响因素分析及解决方法
  • 4.2.5 协议描述
  • 4.2.6 协议正确性证明及分析
  • 4.2.7 其它方法
  • §4.3 失效恢复一致性研究
  • 4.3.1 问题描述
  • 4.3.2 恢复一致性的影响因素
  • 4.3.3 普通HLA仿真系统ACS恢复一致性研究
  • 4.3.4 实时HLA仿真系统ACS恢复一致性研究
  • §4.4 小结
  • 第五章 失效恢复策略及容错参数研究
  • §5.1 相关定义及模型
  • 5.1.1 可用度定义
  • 5.1.2 系统模型及相关假设
  • §5.2 失效恢复策略研究
  • 5.2.1 两类恢复策略下系统的可用度
  • 5.2.2 相关工作
  • 5.2.3 基于Markov链的可用度分析
  • 5.2.4 数值分析
  • 5.2.5 一种改进的失效恢复策略
  • §5.3 最佳检查点间隔研究
  • 5.3.1 改进的恢复策略下系统的可用度
  • 5.3.2 数值分析
  • §5.4 最佳心跳间隔研究
  • 5.4.1 模型扩展
  • 5.4.2 可用度分析
  • 5.4.3 数值分析
  • §5.5 小结
  • 第六章 分布式仿真系统容错调度算法研究
  • §6.1 模型描述
  • 6.1.1 系统模型
  • 6.1.2 任务模型
  • §6.2 分布式仿真系统的调度特征
  • §6.3 基于ICM的调度算法框架
  • §6.4 CSP-RTFT算法
  • 6.4.1 相关工作
  • 6.4.2 仿真任务的WCRT分析
  • 6.4.3 可调度性分析规则
  • 6.4.4 算法描述
  • 6.4.5 算法仿真
  • 6.4.6 结论
  • §6.5 基于PB模型的容错调度算法研究
  • 6.5.1 异构分布式系统容错调度的一般规律
  • 6.5.2 可调度性分析规则
  • 6.5.3 MW-RTFT算法
  • 6.5.4 RC-RTFT算法
  • §6.6 小结
  • 第七章 分布式仿真容错系统的实现与应用
  • §7.1 仿真资源管理模块
  • 7.1.1 资源状态监控
  • 7.1.2 FDS的设计与实现
  • §7.2 系统状态保存与恢复模块
  • 7.2.1 用户级的检查点机制
  • 7.2.2 内核级的检查点机制
  • 7.2.3 CICCP协议的实现
  • 7.2.4 Socket迁移的设计与实现
  • §7.3 容错调度模块的设计与实现
  • 7.3.1 任务分配器
  • 7.3.2 任务调度器
  • §7.4 具有容错功能的XX对抗仿真系统的应用示例
  • 7.4.1 系统构成
  • 7.4.2 系统容错设计
  • 7.4.3 基于DS-FTS的仿真应用执行过程
  • 7.4.4 测试结论
  • §7.5 小结
  • 第八章 结论与展望
  • §8.1 论文工作总结
  • §8.2 进一步工作展望
  • 攻读博士学位期间发表的论文
  • 攻读博士学位期间参加的科研工作
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].分布式仿真鲁棒性改进方法[J]. 电力系统自动化 2010(24)
    • [2].一种分布式仿真平台的信息传输协议制定介绍[J]. 科技信息(学术研究) 2008(15)
    • [3].无人机协同目标跟踪分布式仿真[J]. 兵工自动化 2020(05)
    • [4].基于网格的先进分布式仿真综述[J]. 系统仿真学报 2008(05)
    • [5].基于云计算理念的分布式仿真容错系统[J]. 兵工自动化 2012(07)
    • [6].分布式仿真运行支撑环境实现方法研究[J]. 计算机仿真 2012(09)
    • [7].集装箱港口作业资源配置的分布式仿真优化方法[J]. 系统管理学报 2011(03)
    • [8].分布式仿真多分辨率建模方法及一致性维护[J]. 计算机科学 2011(11)
    • [9].分布式仿真环境下空空通信畅通区三维空间数据生成方法[J]. 弹箭与制导学报 2019(01)
    • [10].分布式仿真平台用户端工况管理的设计与实现[J]. 计算机技术与发展 2018(02)
    • [11].电-热互联系统潮流分布式仿真初探[J]. 设备管理与维修 2017(16)
    • [12].一种基于DDS协议的分布式仿真网络设计[J]. 电子科技 2015(08)
    • [13].ADAMS二次开发技术在分布式仿真中的应用[J]. 系统仿真学报 2009(10)
    • [14].船舶电力推进系统的分布式仿真研究[J]. 舰船科学技术 2019(10)
    • [15].基于移动Agent的分布式仿真检测设计[J]. 江南大学学报(自然科学版) 2009(06)
    • [16].分布式仿真网格技术简析[J]. 电信快报 2013(02)
    • [17].光电探测系统多学科分布式仿真平台设计[J]. 测控技术 2014(04)
    • [18].分布式仿真训练系统通用开发框架研究[J]. 计算机工程与设计 2012(11)
    • [19].并行仿真引擎与HLA互联的网关研究[J]. 微计算机信息 2010(22)
    • [20].分布式仿真试验系统中试验规划工具的设计[J]. 现代计算机(专业版) 2017(19)
    • [21].列车-轨道-桥梁相互作用分布式仿真平台的研发[J]. 高速铁路技术 2017(01)
    • [22].雷达系统分布式仿真及其系统集成关键技术[J]. 火力与指挥控制 2011(06)
    • [23].基于HLA的分布式仿真框架自动生成技术[J]. 计算机工程与科学 2014(01)
    • [24].分布式仿真技术研究[J]. 中国高新技术企业 2015(18)
    • [25].分布式仿真服务技术的研究[J]. 电子科技 2009(08)
    • [26].高性能分布式论证仿真支撑环境分析[J]. 哈尔滨工业大学学报 2012(09)
    • [27].船舶减摇鳍减摇效果分布式仿真[J]. 江苏科技大学学报(自然科学版) 2009(06)
    • [28].基于Vega Prime和Web Service的分布式仿真中间件VPDR-W[J]. 舰船电子工程 2018(01)
    • [29].基于HLA的舰船输转作业仿真系统研究[J]. 舰船科学技术 2017(19)
    • [30].网格环境下分布式仿真应用的资源调度[J]. 计算机应用研究 2009(03)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    大规模分布式仿真系统容错关键技术研究
    下载Doc文档

    猜你喜欢