分布式系统的故障注入方法研究

分布式系统的故障注入方法研究

论文摘要

计算机的可靠性问题一直是人们关注的焦点,为了提高计算机系统的可靠性,人们采用了容错技术,因此对计算机容错性能的评测就成为了一个重要的课题。故障注入技术被证明为评测容错性能的一种有效手段。本文以评测星载计算机的容错性能为应用背景,设计了一种基于软件实现的分布式故障注入系统。重点研究了用软件实现的故障注入方法,并对其进行了仿真。本文首先阐述故障注入方法在评测星载计算机系统容错性能中的应用,并对故障注入方法进行了一些研究和比较。由于星载计算机是用于空间环境,因此会受到单粒子事件的影响,造成单粒子事件故障,这种故障主要是发生在星载计算机的存储器中,通过对内存故障进行分析,提出了适用于该故障注入系统的单粒子事件故障模型。然后,阐述了对于分布式系统故障注入的特点,并论述了在三种操作系统中的故障注入方法底层实现原理。以该故障注入系统为基础,本文又分别在信号和模块级别上研究了故障在软件中的生成与传播过程,并定义了描述此过程的参数及其计算方法,其中提出了模块泄漏率和活动率的概念,并给出了软件脆弱点的概念及确定原则。本文最后介绍了分布式故障注入仿真系统,用于验证前面所提出的基于软件实现的故障注入方法,并阐述了仿真系统的设计思想及各模块的实现功能等。然后进行了仿真实验,并对实验结果进行了分析。实验结果证明,该故障注入系统可在分布式系统或单机系统中注入多种故障,可以模拟单粒子事件对系统的影响,同时还拥有强大的数据回收功能,这为以后研究分布式系统的可靠性奠定了一定的基础。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及来源
  • 1.2 研究故障注入的目的和意义
  • 1.3 故障注入技术及分类
  • 1.3.1 基于模拟实现的故障注入
  • 1.3.2 基于硬件实现的故障注入
  • 1.3.3 基于软件实现的故障注入
  • 1.3.4 混合实现的故障注入
  • 1.4 软件故障注入国内外研究现状
  • 1.4.1 国外研究现状
  • 1.4.2 国内研究现状
  • 1.5 本文主要研究内容及结构
  • 第2章 单粒子事件与故障注入的研究
  • 2.1 引言
  • 2.2 单粒子事件的故障模型
  • 2.2.1 单粒子效应
  • 2.2.2 RAM的故障模型分析
  • 2.2.3 单粒子事件故障的模型
  • 2.3 单粒子事件故障注入模型
  • 2.3.1 FARM模型
  • 2.3.2 单粒子故障注入的模型
  • 2.4 本章小结
  • 第3章 分布式软件故障注入方法
  • 3.1 引言
  • 3.2 故障注入领域中的一些定义和术语
  • 3.3 分布式系统
  • 3.4 单机故障注入与分布式系统故障注入的不同点
  • 3.5 分布式系统的故障模型
  • 3.5.1 故障模型
  • 3.5.2 内存故障模型
  • 3.5.3 CPU故障模型
  • 3.5.4 通讯故障模型
  • 3.5.5 软件故障模型
  • 3.5.6 故障模型的时间控制
  • 3.6 故障注入的底层机理
  • 3.6.1 Unix/Linux系统
  • 3.6.2 Solaris系统
  • 3.6.3 Windows系统
  • 3.7 本章小结
  • 第4章 基于错误传播分析的软件脆弱点检测方法
  • 4.1 引言
  • 4.2 软件系统与环境模型
  • 4.3 错误传播特性
  • 4.3.1 信号级上的错误传播
  • 4.3.2 模块级上的错误传播
  • 4.3.3 识别软件脆弱点
  • 4.4 参数的实验估计方法
  • 4.5 本章小结
  • 第5章 分布式故障注入仿真系统
  • 5.1 引言
  • 5.2 故障注入系统的总体设计
  • 5.3 故障注入系统各模块设计
  • 5.4 仿真实验
  • 5.4.1 分布式实验硬件系统
  • 5.4.2 实验内容
  • 5.4.3 故障注入与回收信息
  • 5.5 实验结果与分析
  • 5.5.1 注入器信息分析
  • 5.5.2 注入对象回收信息分析
  • 5.6 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    分布式系统的故障注入方法研究
    下载Doc文档

    猜你喜欢