基于检查点的作业自动容错技术研究与实现

基于检查点的作业自动容错技术研究与实现

论文摘要

目前,高性能计算系统在经济、军事、科技等各个领域得到了越来越广泛的应用,代表着一个国家的综合科技水平。高性能计算系统的发展呈现出大型化、复杂化的趋势,系统结构及应用的规模都不断扩大,而系统发生故障的几率呈指数增长,计算作业执行的时间也越来越长。因此,研究高性能计算系统中容错技术,致力于提高高性能计算系统可用性,具有十分重要的意义。本文针对当前高性能计算系统中容错技术的不足,在深入研究当前容错关键技术的基础上,对基于高性能计算资源管理系统的作业自动容错技术进行了研究与实现,主要工作和创新包括:1.深入研究当前容错关键技术,针对当前高性能计算系统中容错功能的不足,提出了基于资源管理系统的作业自动容错框架,实现了作业自动容错功能,提高了系统可用性和系统效率。2.深入研究现有的故障检测与诊断技术,针对当前高性能计算系统中故障检测技术的不足,提出了基于节点组件的故障检测模型,对模型中关键技术进行研究与设计,并结合现有的高性能计算系统中故障检测技术,对该模型进行了评价。3.深入研究现有的并行作业检查点技术,针对当前的高性能计算系统中没有实现作业的自动检查点恢复功能的不足,设计并实现了资源管理系统中基于作业的自动CHECKPOINT/RESTART机制,并对机制中关键技术进行研究与设计,实现了并行作业检查点的周期性自动设置与自动恢复功能,从而节约了大量的重复计算时间,并降低了对用户的维护管理技术要求。4.采用NPB测试程序集,在测试环境中分别从功能和性能两个方面对本文所实现的系统进行了测试。测试结果显示,系统有效实现了故障的自动检测及并行作业的自动CHECKPOINT/RESTART功能,并且检查点时间开销和存储开销均较低。因此得出结论,本文设计的系统,在增加了较小的额外开销的情况下,有效地实现了并行作业的自动容错功能,提高了高性能计算系统可用性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景及意义
  • 1.2 研究现状
  • 1.2.1 现有的高性能计算资源管理系统
  • 1.2.2 基于资源管理系统实现容错技术
  • 1.3 主要工作和创新
  • 1.4 论文结构
  • 第二章 高性能计算系统中容错关键技术研究
  • 2.1 故障检测技术研究
  • 2.2 面向恢复的计算技术研究
  • 2.2.1 ROC 技术概述
  • 2.2.2 UNDO 模型技术
  • 2.3 检查点技术研究
  • 2.3.1 检查点文件信息
  • 2.3.2 检查点应用的类型
  • 2.3.3 高性能计算系统中的检查点应用
  • 2.3.4 现有的检查点库技术
  • 2.4 并行应用同步机制研究
  • 2.4.1 并行应用检查点协议
  • 2.4.2 并行应用同步开销
  • 2.5 本章小结
  • 第三章 基于资源管理系统的作业自动容错框架
  • 3.1 SLURM 体系结构研究与分析
  • 3.1.1 体系结构
  • 3.1.2 SLURM 中作业执行过程
  • 3.1.3 SLURM 中现有容错功能研究
  • 3.2 基于SLURM 的作业自动容错框架
  • 3.2.1 作业自动容错框架特点与流程
  • 3.2.2 体系结构
  • 3.2.3 自动故障检测模块
  • 3.2.4 作业的自动CHECKPOINT/RESTART 机制
  • 3.3 本章小结
  • 第四章 基于节点组件的故障检测模型
  • 4.1 基于组件的故障检测机制研究
  • 4.2 基于节点组件的故障检测模型
  • 4.2.1 基于学习的动态组件划分算法
  • 4.2.2 基于节点组件的递归重启方法
  • 4.3 基于节点组件的故障检测模型应用
  • 4.3.1 节点资源请求记录
  • 4.3.2 作业失效检测模块
  • 4.3.3 数据分析模块
  • 4.4 基于节点组件的故障检测模型评价
  • 4.5 本章小结
  • 第五章 并行作业的自动CHECKPOINT/RESTART 机制
  • 5.1 基于作业的检查点机制
  • 5.2 并行作业同步机制研究与设计
  • 5.3 作业检查点文件管理机制研究与设计
  • 5.3.1 并行检查点文件管理
  • 5.3.2 两级检查点文件存储
  • 5.4 并行作业的自动CHECKPOINT/RESTART 体系结构
  • 5.4.1 用户端设计
  • 5.4.2 CR 消息管理模块设计
  • 5.4.3 BLCR 库
  • 5.5 并行作业CHECKPOINT/RESTART 流程
  • 5.5.1 并行作业CHECKPOINT/RESTART 整体流程
  • 5.5.2 并行作业的周期性检查点自动设置流程
  • 5.5.3 并行作业的自动检查点恢复流程
  • 5.6 CHECKPOINT/RESTART 过程控制策略
  • 5.7 本章小结
  • 第六章 基于检查点的作业自动容错系统实现及测试
  • 6.1 系统实现
  • 6.1.1 相关数据结构
  • 6.1.2 检查点功能API
  • 6.1.3 作业的自动CHECKPOINT/RESTART 机制实现
  • 6.2 系统功能测试与分析
  • 6.2.1 测试环境
  • 6.2.2 测试结果与分析
  • 6.3 系统性能测试与分析
  • 6.3.1 测试环境
  • 6.3.2 检查点文件存储开销
  • 6.3.3 CHECKPOINT/RESTART 时间开销
  • 第七章 结束语
  • 6.1 工作总结
  • 6.2 下一步的工作
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    标签:;  ;  

    基于检查点的作业自动容错技术研究与实现
    下载Doc文档

    猜你喜欢