低开销的回卷恢复容错技术研究

低开销的回卷恢复容错技术研究

论文题目: 低开销的回卷恢复容错技术研究

论文类型: 博士论文

论文专业: 计算机应用技术

作者: 杨金民

导师: 张大方

关键词: 软件容错,回卷恢复,检查点,消息日志,容错开销

文献来源: 湖南大学

发表年度: 2005

论文摘要: 互联网、PC机和Windows操作系统现已非常普及。构建在这种平台上的应用系统,其可用性是一个备受关注的问题。作为一种低成本的容错策略,回卷恢复技术对该类大众化的应用系统是一种首选的容错解决方法。不过就该类应用而言,回卷恢复技术有待进一步研究,其中关键问题是回卷恢复的实现问题和回卷恢复的开销。本论文的目标是:研究实现回卷恢复系统的策略和方法,探讨提高回卷恢复系统性能的途径,评估回卷恢复协议性能,提出新的回卷恢复策略,为回卷恢复技术的应用提供基础和支持。本文研究了多线程进程检查点用户级实现问题,提出了基于虚拟对象的检查点实现策略。基于虚拟对象的检查点实现策略不仅简化了检查点系统中的一些复杂问题,而且克服了原有检查点实现中的一些局限性。在基于虚拟对象的检查点实现,我们提出了虚拟对象的包裹成员函数原子方式执行的必要性,并给出了原子方式执行的一种实现方法。本文也研究了分布式系统回卷恢复的实现问题,提出了多线程化的回卷恢复统一框架。回卷恢复协议多种多样,我们通过分析它们间存在的共性,归纳出了一个基于事件驱动的回卷恢复统一框架。我们研究了进程中发送消息,接收消息,处理消息(计算),消息日志和检查点并发执行的可行性,并采用多线程技术实现了4种进程工作负载的并发执行。检查点完成时间是协同检查点协议一个重要性能指标。减少检查点完成时间既可降低协议的开销率,又可降低输出提交延迟。本文分析影响检查点完成时间的因素,探讨降低检查点完成时间的途径,提出了一种基于多线程模式的阻塞式协同检查点协议。在具体应用中,参与计算的主机,其故障率可能不相同,回卷开销可能不相同,回卷的允许度可能不相同。在满足系统要求的情况下,降低回卷恢复开销是一个重要问题。我们提出一种基于分块消息日志的回卷恢复协议,建立其性能模型,探讨协议开销率与协议参数和系统特性参数之间的关系。分块消息日志方法是一种可配置的一般化方法,悲观消息日志方法和协同检查点方法是其两个特例。理论分析结果表明,协议配置参数具有可优化特性,采用分块消息日志策略能够优化协议性能。我们针对协议的可扩展性,提出了限定回卷恢复范围的概念。为了在实现限定回卷范围的同时,使回卷恢复具有低开销特性,我们对分布式系统进行划分,提出了基于代理的消息日志协议,不同范围的低开销的回卷恢复容错技术研究消息传递使用不同的日志协议,克服了性能瓶颈问题。 基于本文所提的基于虚拟对象的检查点实现策略和多线程化的回卷恢复统一框架,我们在WindowS平台上开发了一个回卷恢复试验平台。我们采用标准性能检测程序进行回卷恢复试验。实现结果表明,多线程化进程工作负载不仅提高了程序的执行效率,而且显著地降低了回卷恢复系统的无故障时开销。我们相信,在系统无故障开销显著降低之后,可配置的分块消息日志协议(协同检查点协议和悲观消息日志协议的组合)会得到更加广泛的应用。关键词:软件容错;回卷恢复;检查点;消息日志;容错开销

论文目录:

摘要

ABSTRACT

插图索引

附表索引

第1章 引言

1.1 回卷恢复容错面临的新课题

1.2 本论文的主要工作

1.3 论文的整体结构和章节安排

第2章 回卷恢复基本概念和研究现状概述

2.1 软件容错技术简介

2.2 回卷恢复系统模型和基本概念

2.3 回卷恢复研究现状

2.3.1 进程检查点

2.3.2 检查点和消息日志

2.3.3 故障恢复

2.3.4 输出提交

2.3.5 垃圾回收

2.3.6 性能评估和优化

2.3.7 回卷恢复技术的应用

第3章 基于虚拟对象的多线程进程检查点实现策略

3.1 进程检查点系统的研究现状

3.2 基于虚拟对象的进程检查点实现框架

3.3 虚拟对象包裹成员函数原子方式执行的必要性和实现策略

3.4 多线程进程检查点算法

3.5 检查点系统的实现

3.5.1 定时器对象信号状态

3.5.2 进程中线程数的动态变化

3.5.3 回卷恢复时线程栈的定位

3.5.4 线程局部变量和异常处理信息的保存与恢复

3.5.5 应用程序堆内存分配

3.5.6 Win32 API调用截获技术

3.5.7 检查点库注入技术

3.6 试验结果和性能优化

3.7 小结

第4章 多线程化的分布式系统回卷恢复实现框架

4.1 系统模型

4.2 多线程化的回卷恢复统一框架

4.2.1 回卷恢复统一框架

4.2.2 多线程化进程的工作负载

4.2.3 可重用和可延伸的回卷恢复基本组件

4.3 WINDAR: Windows平台下多线程化的回卷恢复试验平台原型

4.3.1 和广域网模拟器 NIST NET的集成

4.3.2 和消息传递接口库 MPICH的集成

4.4 性能评估

4.5 和相关研究的对比

4.6 小结

第5章 最小化协同检查点的检查点完成时间

5.1 系统模型

5.2 阻塞式协同检查点协议

5.3 故障恢复算法

5.4 性能结果

5.5 与相关研究的对比

5.6 小结

第6章 一种基于分块消息日志的回卷恢复协议

6.1 分块消息日志的动机

6.2 系统模型及回卷恢复协议

6.2.1 系统模型

6.2.2 分块消息日志协议

6.3 协议性能评估方法

6.4 协议特性及优化分析

6.5 相关研究

6.6 小结

第7章 限定广域网中大规模分布式系统的回卷恢复范围

7.1 问题的提出

7.2 分布式计算的层次模型及回卷恢复基本概念

7.3 消息依赖关系跟踪

7.3.1 主机层消息传递依赖关系跟踪

7.3.2 组层消息依赖关系跟踪协议

7.4 仿真实验结果

7.5 与相关研究的对比

7.6 小结

结论

致谢

参考文献

附录A 攻读博士学位期间发表论文、参加项目及获奖情况

发布时间: 2005-04-04

相关论文

  • [1].面向恢复的容错计算技术研究[D]. 李海山.哈尔滨工程大学2007
  • [2].高可靠容错实时系统的支撑技术研究[D]. 陈宇.电子科技大学2001
  • [3].实时分布容错系统的任务调度技术研究[D]. 周双娥.哈尔滨工程大学2003
  • [4].嵌入式计算机控制系统容错策略研究[D]. 王平.中国科学院研究生院(上海微系统与信息技术研究所)2004
  • [5].故障诊断与容错技术及其在组合导航系统中的应用研究[D]. 钱华明.哈尔滨工程大学2004
  • [6].故障诊断与容错控制方法研究[D]. 王德军.吉林大学2004
  • [7].容错实时系统可调度性分析研究[D]. 王磊.浙江大学2005
  • [8].基于主动任务复制的透明容错计算研究与实现[D]. 戴新发.哈尔滨工程大学2005
  • [9].高可用集群系统中回卷恢复容错技术研究[D]. 王继刚.哈尔滨工程大学2006
  • [10].大规模分布式仿真系统容错关键技术研究[D]. 刘云生.国防科学技术大学2006

标签:;  ;  ;  ;  ;  

低开销的回卷恢复容错技术研究
下载Doc文档

猜你喜欢