面向硬件故障的软件容错 ——模型,算法和实验

面向硬件故障的软件容错 ——模型,算法和实验

论文摘要

空间计算机是空间信息处理的基础平台,具有重大的战略意义。在空间环境中,硬件瞬时故障给空间计算机带来的可靠性问题非常突出。使用抗辐照器件可以提高空间计算机的可靠性,但是抗辐照器件性能非常低,价格非常高,功耗也很高,不适合用来建造用于科学计算目的的高性能的空间计算机。COTS器件性能很高,价格和功耗都很低,在COTS器件上面通过软件技术容忍硬件瞬时故障,可以提供高可靠、高性能、低成本和低功耗的空间计算机的解决方案。但是软件对于硬件瞬时故障传播的影响如何,软件容忍硬件瞬时故障的能力到底如何,这种能力对于系统有什么样的影响,都还没有模型能够描述。软件冗余在容忍硬件故障的同时,也带来了很大的开销,如何减小这种开销的影响,也是需要解决的问题。本文先建立了计算数据流模型,并在计算数据流模型的基础上建立了错误流模型。通过区分两种不同类型的错误,以及引入的6条错误传播规则和2条错误独立定律,我们计算出了错误流模型中任意数据在任意时刻产生错误的概率。在此基础上,我们根据容错概念的本质含义,概率化的定义了程序的容错能力。并分析了程序的容错能力对软件实现的双冗余容错系统的容错能力和性能的影响。以程序的容错能力为优化目标,我们提出了通过基于错误流分析的等价变换提高程序的容错能力的概念和方法。其中,我们还在错误流分析的基础上,提出了两种容错算法的优化方法,明显增加了性能并降低了功耗。本文的主要创新如下,1.通过引入原子数据和计算关系的概念,建立了计算数据流模型,描述了存储单元之间由于计算而形成的时空联系。通过引入原子数据的错误概率函数和计算关系的错误传播概率函数,在计算数据流模型上建立了错误流模型,概率化的描述了计算关系传播硬件错误的特性,计算出了任意存储单元在任意时刻发生错误的概率。最终建立了错误流分析的理论框架。2.基于错误流分析提出程序容错能力的概念,给出了程序容错能力的计算方法,提出容忍错误是程序内在属性的观点。并以程序的容错能力为优化目标,提出了一种不进行任何显式的冗余,而仅通过基于错误流分析的等价变换就能提高程序容错能力的方法。并且应用错误流分析,描述了构建双冗余容错系统的方法,分析了提高单个软件副本的容错能力会给双冗余容错系统带来的影响。3.提出对于程序容错能力具有关键影响的错误流关键子图的概念,基于错误流分析分别给出了由关键结点和关键路径生成错误流关键子图的方法。并且提出一种仅复制错误流关键子图的部分冗余容错算法,和EDDI算法相比,部分冗余容错算法在损失很小的错误覆盖率的情况下,能够提高IPC性能10%,减少执行时间15%,减小能量消耗10%。4.通过分析EDDI算法由于插入的分支指令而造成的性能和功耗损失,提出了一种通过附加计算减少分支指令数量的错误流压缩算法,和EDDI算法相比,错误流压缩算法在增加很小的错误延迟的情况下,能够提高性能12%,减少执行时间10%,减小能量消耗5%。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 高性能的空间计算机
  • 1.1.2 空间应用对空间计算机的制约因素
  • 1.1.3 基于COTS器件的空间计算机
  • 1.1.4 面向硬件故障的软件容错技术
  • 1.2 研究内容
  • 1.2.1 程序对硬件错误传播的影响
  • 1.2.2 程序的容错能力和性能之间的矛盾
  • 1.2.3 单个软件副本的容错能力对系统的影响
  • 1.3 研究方法
  • 1.3.1 错误流分析
  • 1.3.2 系统运行时分析
  • 1.4 本文的主要贡献和创新
  • 1.5 论文的结构
  • 第二章 错误流模型
  • 2.1 错误流模型
  • 2.1.1 计算数据流模型
  • 2.1.2 计算数据流图的建立
  • 2.1.3 错误流模型和错误流图
  • 2.1.4 URM程序示例
  • 2.2 错误流分析
  • 2.2.1 错误的分类
  • 2.2.2 错误传播的规则和定律
  • 2.2.3 错误概率的计算
  • 2.2.4 URM程序示例
  • 2.3 程序的容错能力
  • 2.3.1 错误流图的出口
  • 2.3.2 程序的容错能力
  • 2.4 错误流关键子图
  • 2.4.1 从关键结点生成关键子图
  • 2.4.2 从关键路径生成关键子图
  • 2.4.3 关键子图的复制
  • 2.4.4 关键结点和关键路径的选取
  • 2.5 小结
  • 第三章 优化程序的性能和容错能力
  • 3.1 提高完全冗余的性能并降低功耗
  • 3.1.1 分支指令对性能和功耗的危害
  • 3.1.2 EDDI算法
  • 3.1.3 错误流压缩算法
  • 3.2 通过部分冗余进一步减小开销
  • 3.2.1 部分冗余算法
  • 3.3 无冗余容错编译
  • 3.3.1 基于错误流分析的等价变换
  • 3.4 小结
  • 第四章 双冗余容错系统的错误流分析
  • 4.1 双冗余容错系统
  • 4.2 双冗余容错系统分析
  • 4.2.1 双冗余容错系统的容错能力分析
  • 4.2.2 双冗余容错系统的性能分析
  • 4.3 小结
  • 第五章 未来的工作和展望
  • 结束语
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 附录A 实验环境配置
  • 相关论文文献

    • [1].关于实现硬件故障裕度一致性问题的探讨[J]. 石油化工自动化 2020(05)
    • [2].计算机网络通讯技术硬件故障分析与处理的渗透[J]. 数字技术与应用 2017(01)
    • [3].硬件故障在计算机中的分析和维修[J]. 数码世界 2017(06)
    • [4].硬件故障导致雷达回波错误数据质量控制方法[J]. 应用气象学报 2015(05)
    • [5].常用医疗设备的非硬件故障产生原因及对策[J]. 中国医学装备 2013(03)
    • [6].如何一步一步检修电脑硬件故障[J]. 网络与信息 2009(02)
    • [7].学习如何判断电脑硬件故障[J]. 计算机与网络 2009(14)
    • [8].硬件故障注入测试在安全产品开发中的应用[J]. 工业控制计算机 2013(12)
    • [9].迅速判断处理微机监测站机硬件故障的探讨[J]. 海峡科学 2010(03)
    • [10].容错箭载计算机的硬件故障注入方法研究[J]. 航天控制 2008(04)
    • [11].计算机常见硬件故障维修思路和诊断方法[J]. 计算机产品与流通 2020(03)
    • [12].计算机硬件常见故障诊断与维护[J]. 信息与电脑(理论版) 2019(14)
    • [13].浅谈计算机网络通讯技术硬件故障分析与处理[J]. 电子世界 2016(17)
    • [14].联想服务变“软”记[J]. 新经济导刊 2009(09)
    • [15].臭氧激光雷达硬件故障数据的识别方法[J]. 中国激光 2019(04)
    • [16].浅谈船用雷达的检修[J]. 教育现代化 2018(11)
    • [17].计算机常见硬件故障的诊断及其处理分析[J]. 硅谷 2014(13)
    • [18].大规模并行计算机系统硬件故障容错技术综述[J]. 计算机工程与科学 2010(10)
    • [19].RROFIBUS现场总线常见硬件故障及处理[J]. 中国西部科技 2009(35)
    • [20].DCS硬件故障分析与处理[J]. 科技视界 2014(10)
    • [21].西门子PLC系统硬件故障的分析与处理[J]. 电子制作 2014(09)
    • [22].分析自动气象站硬件故障检测流程[J]. 农业与技术 2013(08)
    • [23].解析电脑黑屏无法启动的主要原因[J]. 计算机与网络 2010(19)
    • [24].网络常见的几种故障诊断[J]. 网络与信息 2009(02)
    • [25].微机常见硬件故障检测维修方法[J]. 价值工程 2014(14)
    • [26].通过BER指标快速处理硬件故障的流程[J]. 东南传播 2008(01)
    • [27].西门子6SE70变频器硬件故障分析[J]. 电子技术与软件工程 2019(11)
    • [28].颗粒物激光雷达硬件故障数据的识别[J]. 光电工程 2019(07)
    • [29].计算机的硬件常见问题及其维修措施[J]. 计算机光盘软件与应用 2014(04)
    • [30].计算机硬件的维护与管理研究[J]. 计算机光盘软件与应用 2012(24)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    面向硬件故障的软件容错 ——模型,算法和实验
    下载Doc文档

    猜你喜欢