论文摘要
目前,高性能计算系统在经济、军事、科技等各个领域得到了越来越广泛的应用,代表着一个国家的综合科技水平。高性能计算系统的发展呈现出大型化、复杂化的趋势,系统结构及应用的规模都不断扩大,而系统发生故障的几率呈指数增长,计算作业执行的时间也越来越长。因此,研究高性能计算系统中容错技术,致力于提高高性能计算系统可用性,具有十分重要的意义。本文针对当前高性能计算系统中容错技术的不足,在深入研究当前容错关键技术的基础上,对基于高性能计算资源管理系统的作业自动容错技术进行了研究与实现,主要工作和创新包括:1.深入研究当前容错关键技术,针对当前高性能计算系统中容错功能的不足,提出了基于资源管理系统的作业自动容错框架,实现了作业自动容错功能,提高了系统可用性和系统效率。2.深入研究现有的故障检测与诊断技术,针对当前高性能计算系统中故障检测技术的不足,提出了基于节点组件的故障检测模型,对模型中关键技术进行研究与设计,并结合现有的高性能计算系统中故障检测技术,对该模型进行了评价。3.深入研究现有的并行作业检查点技术,针对当前的高性能计算系统中没有实现作业的自动检查点恢复功能的不足,设计并实现了资源管理系统中基于作业的自动CHECKPOINT/RESTART机制,并对机制中关键技术进行研究与设计,实现了并行作业检查点的周期性自动设置与自动恢复功能,从而节约了大量的重复计算时间,并降低了对用户的维护管理技术要求。4.采用NPB测试程序集,在测试环境中分别从功能和性能两个方面对本文所实现的系统进行了测试。测试结果显示,系统有效实现了故障的自动检测及并行作业的自动CHECKPOINT/RESTART功能,并且检查点时间开销和存储开销均较低。因此得出结论,本文设计的系统,在增加了较小的额外开销的情况下,有效地实现了并行作业的自动容错功能,提高了高性能计算系统可用性。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题背景及意义1.2 研究现状1.2.1 现有的高性能计算资源管理系统1.2.2 基于资源管理系统实现容错技术1.3 主要工作和创新1.4 论文结构第二章 高性能计算系统中容错关键技术研究2.1 故障检测技术研究2.2 面向恢复的计算技术研究2.2.1 ROC 技术概述2.2.2 UNDO 模型技术2.3 检查点技术研究2.3.1 检查点文件信息2.3.2 检查点应用的类型2.3.3 高性能计算系统中的检查点应用2.3.4 现有的检查点库技术2.4 并行应用同步机制研究2.4.1 并行应用检查点协议2.4.2 并行应用同步开销2.5 本章小结第三章 基于资源管理系统的作业自动容错框架3.1 SLURM 体系结构研究与分析3.1.1 体系结构3.1.2 SLURM 中作业执行过程3.1.3 SLURM 中现有容错功能研究3.2 基于SLURM 的作业自动容错框架3.2.1 作业自动容错框架特点与流程3.2.2 体系结构3.2.3 自动故障检测模块3.2.4 作业的自动CHECKPOINT/RESTART 机制3.3 本章小结第四章 基于节点组件的故障检测模型4.1 基于组件的故障检测机制研究4.2 基于节点组件的故障检测模型4.2.1 基于学习的动态组件划分算法4.2.2 基于节点组件的递归重启方法4.3 基于节点组件的故障检测模型应用4.3.1 节点资源请求记录4.3.2 作业失效检测模块4.3.3 数据分析模块4.4 基于节点组件的故障检测模型评价4.5 本章小结第五章 并行作业的自动CHECKPOINT/RESTART 机制5.1 基于作业的检查点机制5.2 并行作业同步机制研究与设计5.3 作业检查点文件管理机制研究与设计5.3.1 并行检查点文件管理5.3.2 两级检查点文件存储5.4 并行作业的自动CHECKPOINT/RESTART 体系结构5.4.1 用户端设计5.4.2 CR 消息管理模块设计5.4.3 BLCR 库5.5 并行作业CHECKPOINT/RESTART 流程5.5.1 并行作业CHECKPOINT/RESTART 整体流程5.5.2 并行作业的周期性检查点自动设置流程5.5.3 并行作业的自动检查点恢复流程5.6 CHECKPOINT/RESTART 过程控制策略5.7 本章小结第六章 基于检查点的作业自动容错系统实现及测试6.1 系统实现6.1.1 相关数据结构6.1.2 检查点功能API6.1.3 作业的自动CHECKPOINT/RESTART 机制实现6.2 系统功能测试与分析6.2.1 测试环境6.2.2 测试结果与分析6.3 系统性能测试与分析6.3.1 测试环境6.3.2 检查点文件存储开销6.3.3 CHECKPOINT/RESTART 时间开销第七章 结束语6.1 工作总结6.2 下一步的工作致谢参考文献作者在学期间取得的学术成果
相关论文文献
标签:高性能计算论文; 容错论文;