分布式故障注入论文-徐光侠

分布式故障注入论文-徐光侠

导读:本文包含了分布式故障注入论文开题报告文献综述及选题提纲参考文献,主要关键词:可信性,可靠性,分布式实时系统,软件故障注入

分布式故障注入论文文献综述

徐光侠[1](2011)在《分布式实时系统的软件故障注入及可靠性评测方法研究》一文中研究指出一些高可靠性领域,计算机系统的应用越来越广泛,如航空航天、核工业、交通控制、银行和医疗等。在这些领域中,计算机系统的失效可能造成巨大的人员伤亡和经济损失。但如何在系统应用之前对这些容错机制的有效性、可用性进行评估和验证,检验它们是否和预期的情况相一致,这就需要有效的理论和机制应对容错性的评估和提高。计算机系统的可靠性验证是一个复杂艰巨的任务,一般使用理论建模方法,但由于故障激活机制和错误传播过程非常复杂,在大多数情况下都是不完全可知的,所以很难对实际系统进行建模。故障注入是通过人为地产生并引入故障到目标系统中加速系统产生错误和失效,然后通过分析故障引入后的系统行为反应,可获得对目标系统可靠性和容错性的评测结果。与其它方法相比,故障注入具有应用范围广、结果精确度高、时间花费少等优点,已引起众多学者和研究人员的重视。目前,关键行业领域大量采用分布式系统或分布式实时系统,对其可靠性评估与度量难度大、要求高,对系统整体的可信监控难度大,本文针对这种状况,深入研究故障注入技术,探索针对分布式实时系统的软件实现的故障注入方法,研究多种类型的系统故障并对相关的故障模型进行了分析,建立相应的故障注入系统结构。考虑到网络环境也是对分布式实时系统可信性构成影响的重要因素,故对网络故障检测与诊断进行深入研究。研究软件可靠性模型与评测的理论与技术,探索分布式实时系统的可靠性测评方法。具体研究工作如下:①研究软件可信性的特征和内涵,特别是软件可靠性、故障注入之间的区别和内涵联系,缺陷、错误、失效叁者之间的转化关系,以及分布式实时系统的特点和系统结构;为进一步面向软件可靠性增强技术——软件实现的故障注入技术、以及模块与系统级的可靠性模型建立与评测技术的深入研究提供背景知识。②讨论研究分布式实时系统的故障模型,针对分布式实时系统的可信验证的难题,分析分布式实时系统的故障注入特点,建立故障注入的故障分类模型。在此基础上总结出故障模型的故障处理与传播方式。③研究并分析故障注入实现方法和框架,提出一种建立在分布式实时系统环境中的软件故障注入系统结构,分为叁个层次:目标系统、通信网络、软件故障注入系统。并设计出软件故障注入系统,其包含软件故障注入器、数据收集模块和故障数据分析模块。深入研究软件故障注入的底层原理和高层实现机制并提出故障注入执行算法。④研究并分析证据理论的基本概念和推理模型,提出基于证据理论的网络故障检测与诊断,探索基于证据理论的故障检测与诊断方法对于提高故障诊断的准确性有效性程度。分析并构建一种网络可靠性分级指标模型。⑤针对目前软件可靠性模型的效率和准确性等方面局限,以及分布式实时系统实时执行的特点,建立更能反映分布式实时系统特征的可靠性模型,总结可靠性设计的基本原则和方法,提出关键链路的确定方法、在不同条件下确定系统的可靠性方法以及最可靠的通讯路径集的确定方法。提出一种基于时间限制的可靠性评估方法,给出了程序相关的FST相关算法和响应时间的评估精简算法,达到降低系统的时间开销;提出分布式实时系统的可靠性评测方法,分析推导出各软件模块与系统可靠性之间的定量关系,识别对系统可靠性影响较大的软件模块。(本文来源于《重庆大学》期刊2011-09-01)

徐光侠,陈蜀宇,常光辉,刘宴兵,刘国良[2](2010)在《分布式实时系统的软件故障注入》一文中研究指出针对分布式实时系统的可信验证的难题,建立通用故障模型,将故障模型分为:内存故障、CPU故障、通信故障和服务故障4种。提出一种建立在分布式实时系统环境中的软件故障注入系统结构,它分为3个层次:目标系统、通信网络、软件故障注入系统。软件故障注入系统分3个部分进行设计,软件故障注入器、数据收集模块和故障数据分析模块。对基于该结构的软件故障注入过程进行了说明,实现软件故障注入系统并做了相应的实验分析,实验检测到故障多数为通信故障、内存故障和CPU故障,其覆盖率分别为37.68%、15.47%和15.17%。实验证明这种体系结构很适合分布式实时环境的应用,同时也为进一步研究软件可信验证提供了理论基础和实例依据。(本文来源于《重庆大学学报》期刊2010年02期)

石晶,洪炳镕,蔡则苏,潘清和[3](2009)在《分布式星载系统故障注入研究》一文中研究指出基于软件的故障注入是对星载计算机系统可靠性进行的一种评测技术。本文首先提出了用软件方法进行的故障注入系统,并提出故障注入模型;其次阐述了由本课题组自主研究开发的一种用于评测星载系统可靠性的软件故障注入工具(SFID),最后对实验结果进行了分析。(本文来源于《微计算机信息》期刊2009年10期)

石晶[4](2008)在《分布式系统的故障注入方法研究》一文中研究指出计算机的可靠性问题一直是人们关注的焦点,为了提高计算机系统的可靠性,人们采用了容错技术,因此对计算机容错性能的评测就成为了一个重要的课题。故障注入技术被证明为评测容错性能的一种有效手段。本文以评测星载计算机的容错性能为应用背景,设计了一种基于软件实现的分布式故障注入系统。重点研究了用软件实现的故障注入方法,并对其进行了仿真。本文首先阐述故障注入方法在评测星载计算机系统容错性能中的应用,并对故障注入方法进行了一些研究和比较。由于星载计算机是用于空间环境,因此会受到单粒子事件的影响,造成单粒子事件故障,这种故障主要是发生在星载计算机的存储器中,通过对内存故障进行分析,提出了适用于该故障注入系统的单粒子事件故障模型。然后,阐述了对于分布式系统故障注入的特点,并论述了在叁种操作系统中的故障注入方法底层实现原理。以该故障注入系统为基础,本文又分别在信号和模块级别上研究了故障在软件中的生成与传播过程,并定义了描述此过程的参数及其计算方法,其中提出了模块泄漏率和活动率的概念,并给出了软件脆弱点的概念及确定原则。本文最后介绍了分布式故障注入仿真系统,用于验证前面所提出的基于软件实现的故障注入方法,并阐述了仿真系统的设计思想及各模块的实现功能等。然后进行了仿真实验,并对实验结果进行了分析。实验结果证明,该故障注入系统可在分布式系统或单机系统中注入多种故障,可以模拟单粒子事件对系统的影响,同时还拥有强大的数据回收功能,这为以后研究分布式系统的可靠性奠定了一定的基础。(本文来源于《哈尔滨工业大学》期刊2008-06-01)

李爱国[5](2007)在《分布式软件故障注入及软件脆弱点检测方法研究》一文中研究指出在一些高可靠性领域,计算机系统的应用越来越广泛,如交通控制、医疗、核电站、银行、电讯系统和航空航天等。在这些领域中,计算机系统的失效可能造成巨大的人员伤亡和经济损失。另外,在高性能并行计算领域,计算机可靠性的重要性也越来越高。并行计算机通常用于一些高强度计算应用,如基础物理/化学、飞机/汽车建模等,这些应用不仅运行时间长,而且由于并行计算所带来的电子器件增多导致故障发生的可能性增大。特别是对于航天领域,由于宇宙射线的存在,会导致计算机系统经常发生各种故障。可靠性计算机一般都采用容错机制来检测软件或硬件故障,定位故障源或可能从这些故障/错误中恢复。但如何在系统应用之前对这些容错机制的有效性、可用性进行评估和验证,检验它们是否和我们事先预想的情况相一致。这就需要一种有效的对容错机制进行评测的方法和工具。同时,在对软件系统装配容错机制之前,考虑到容错机制的效率因素,把容错机制放于何处及如何放置才能发挥它们的最大作用,这就需要了解软件系统中错误的产生与传播过程,以及找出软件系统中相对薄弱的环节或部分。最后在找到软件系统的薄弱环节以后,如何对之进行加固也是一个很重要的内容。计算机系统的可靠性验证是一个复杂艰巨的任务,一般使用理论建模方法,但由于故障激活机制和错误传播过程非常复杂,在大多数情况下都是不完全可知的,所以很难对实际系统进行建模。故障注入技术作为一种实验评测方法被证明是一种高效的可靠性验证方法,他通过人为的在目标系统中产生故障,加速系统发生故障和失效的过程,通过对注入故障后系统的反应信息进行监测和分析,可获得对目标系统可靠性和容错性能的评测结果。与其它方法相比,故障注入具有应用范围广、结果精确度高、时间花费少等优点,已引起众多学者和研究人员的重视。本文首先研究了进行故障注入的一些基本原理和方法,结合航天领域的特点设计了故障模型,然后提出了一种分布式的故障注入工具的架构,并在Linux系统上进行了开发与实现。经实验验证,该工具可在分布式系统或单机系统中注入多种故障,同时还拥有强大的数据回收功能,并具有很好的可移植性(可在所有类Unix操作系统平台上运行)和可扩展性。这为以后研究分布式系统的可靠性奠定了一定的基础。以该故障注入工具为基础,本文又分别在信号和模块级别上研究了故障在软件中的生成与传播过程,并定义了描述此过程的参数及其计算方法,其中首次提出了模块泄漏率和活动率的概念,并给出了软件脆弱点的概念及确定原则,最后在一卫星光纤陀螺捷联航姿控制系统上对该框架的正确性和有效性进行了验证。这为从设计角度来减少软件系统模块间的错误传播提供了理论基础,同时也为评测软件系统可靠性提供了方法,并为如何放置容错机制才能使之达到效率最高提供了依据。找到了软件系统中的脆弱点,但如何对它们进行加固处理,也是本文考虑的一个内容。本文针对航天领域强辐射的特点,分别从程序控制流和数据流角度提出了两种在线加固方法。控制流加固方法(RSCFC)可以检测程序中的控制流错误,该方法首先识别程序中的各个基本模块,然后把基本模块间的关系编码进模块标记中,最后在每个基本模块的首部和尾部分别加上测试和设置指令,通过一全局变量来检测程序的执行流程。该方法不仅可用于高级语言,也可在汇编语言级上实现。通过在几个C语言标准程序上使用该方法,并进而进行故障注入实验,结果表明该方法在对程序代码大小和性能影响不大的条件下可把未探测故障率从原始程序的20.7~68.8%降低到2.8~20.4%。数据流加固方法(SBC)通过对程序中变量进行简单编码和解码操作后,可对发生在程序数据空间内的单“位”错误进行检测并进而纠正。故障注入的实验结果表明,对于程序数据段错误,该算法可把错误输出从原始程序的27%~49%降低到0.01%~0.02%,同时故障纠正率接近100%;对于程序堆栈段错误,该算法可把错误输出从原始程序的10%~70%降低到1%~3%,故障纠正率也在73%以上。在软件系统实现上,我们把故障注入平台、错误传播和软件脆弱点检测集成到了一起,统称软件脆弱点识别环境SAVIE。本文在最后对SAVIE设计实现进行了描述,包括系统结构、各个模块的功能、使用流程和方法等。(本文来源于《哈尔滨工业大学》期刊2007-09-01)

陈显锋,裘丽华,王占林[6](1999)在《分布式系统故障注入研究》一文中研究指出介绍了一个故障注入系统的结构、分布式系统中的故障模型、仿真实例中的故障注入过程及注入了故障的仿真实例运行过程。故障注入系统提供了分布式综合仿真平台进行系统故障情况下任务重新分配、任务冗余及系统重构等方面的研究基础(本文来源于《系统仿真学报》期刊1999年06期)

分布式故障注入论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对分布式实时系统的可信验证的难题,建立通用故障模型,将故障模型分为:内存故障、CPU故障、通信故障和服务故障4种。提出一种建立在分布式实时系统环境中的软件故障注入系统结构,它分为3个层次:目标系统、通信网络、软件故障注入系统。软件故障注入系统分3个部分进行设计,软件故障注入器、数据收集模块和故障数据分析模块。对基于该结构的软件故障注入过程进行了说明,实现软件故障注入系统并做了相应的实验分析,实验检测到故障多数为通信故障、内存故障和CPU故障,其覆盖率分别为37.68%、15.47%和15.17%。实验证明这种体系结构很适合分布式实时环境的应用,同时也为进一步研究软件可信验证提供了理论基础和实例依据。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分布式故障注入论文参考文献

[1].徐光侠.分布式实时系统的软件故障注入及可靠性评测方法研究[D].重庆大学.2011

[2].徐光侠,陈蜀宇,常光辉,刘宴兵,刘国良.分布式实时系统的软件故障注入[J].重庆大学学报.2010

[3].石晶,洪炳镕,蔡则苏,潘清和.分布式星载系统故障注入研究[J].微计算机信息.2009

[4].石晶.分布式系统的故障注入方法研究[D].哈尔滨工业大学.2008

[5].李爱国.分布式软件故障注入及软件脆弱点检测方法研究[D].哈尔滨工业大学.2007

[6].陈显锋,裘丽华,王占林.分布式系统故障注入研究[J].系统仿真学报.1999

标签:;  ;  ;  ;  

分布式故障注入论文-徐光侠
下载Doc文档

猜你喜欢