基于集群系统状态的检查点技术的研究

基于集群系统状态的检查点技术的研究

论文摘要

随着当今社会的发展,各种应用领域对计算能力的要求越来越高,集群作为一种有效可扩展的并行计算的形式得到了广泛的应用。很多集群系统被应用在国计民生的重要领域,集群的规模也在不断扩展。随着集群系统规模的扩展,其出现故障的几率也成指数级增长,所以,集群系统的容错性能成了衡量集群性能的重要指标。检查点设置卷回恢复技术作为一种并行系统中有效的容错方式,在目前的集群系统中得到广泛的应用。本文系统地介绍了集群系统的概念及容错的相关技术,着重介绍了检查点设置卷回恢复技术。分析了当前国内外常见的减少检查点开销的方法。除了用户参与法和编译器辅助内存排除法是真正的减少了检查点的文件大小,从本质上减小了检查点需要保存的进程运行状态。其它方法都是在实际需要保存进程运行状态一定的情况下,从不同侧面减小需要保存的文件大小或者提高检查点和程序的并行性来减少检查点卷回恢复的开销。文章中提出了通过监控系统的当前状态来设置检查点的方法,即在系统状态小的时刻进行设置检查点操作,这样能从根本上减少检查点文件的大小,并克服了原有算法破坏检查点操作透明性的缺点,实验证明这种方法能有效减少检查点开销。文章详细地介绍了基于监控系统状态的设置检查点方法,以及在基于PVM和Linux的集群系统上的实现。由于用户进程在PVM上的运行特点,使得保存检查点工作分别要保存用户进程作为操作系统普通进程的状态和作为PVM任务的状态。系统中采用在设置检查点时刻先退出PVM,再重新加入PVM的方式实现检查点的保存。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 论文研究背景及意义
  • 1.2 论文主要研究内容介绍
  • 1.3 论文组织结构
  • 第2章 集群系统及容错技术
  • 2.1 并行系统介绍
  • 2.2 集群系统介绍及特点分析
  • 2.3 容错技术概述
  • 2.3.1 部件故障和处理机故障
  • 2.3.2 前向恢复技术和后向恢复技术
  • 2.3.3 冗余容错
  • 2.4 本章小结
  • 第3章 检查点技术
  • 3.1 检查点设置与卷回恢复容错技术概述
  • 3.2 检查点容错概念及关键技术分析
  • 3.2.1 检查点概念及全局一致状态
  • 3.2.2 检查点文件及其主要内容
  • 3.3 常见的检查点协议介绍及比较
  • 3.3.1 单独依赖检查点的卷回恢复协议
  • 3.3.2 基于消息记录的卷回恢复协议
  • 3.3.3 协议性能比较
  • 3.4 国内外相关研究
  • 3.4.1 影响检查点卷回恢复协议性能的因素
  • 3.4.2 常见提高检查点卷回恢复协议性能的方法
  • 3.4.3 分析比较
  • 3.5 本章小结
  • 第4章 集群检查点系统的设计
  • 4.1 一种减少设置检查点开销的方法
  • 4.2 检查点系统设计思路
  • 4.2.1 监控模块设计思路
  • 4.2.2 监控模型的建立
  • 4.2.3 同步过程实现方法
  • 4.3 本章小结
  • 第5章 集群检查点系统的具体实现
  • 5.1 PVM特点介绍及设置检查点方式分析
  • 5.1.1 PVM特点介绍
  • 5.1.2 设置检查点方式分析
  • 5.2 检查点系统具体实现的关键技术分析
  • 5.2.1 透明性分析与实现
  • 5.2.2 状态监控进程的实现
  • 5.3 系统结构及实现
  • 5.3.1 系统的结构及整体工作过程
  • 5.3.2 检查点保存和恢复工作的实现
  • 5.3.3 coordinator进程的实现
  • 5.4 本章小结
  • 第6章 系统性能分析与评价
  • 6.1 实验平台
  • 6.2 系统的性能测试与评价
  • 6.3 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于集群系统状态的检查点技术的研究
    下载Doc文档

    猜你喜欢