论文摘要
随着当今社会的发展,各种应用领域对计算能力的要求越来越高,集群作为一种有效可扩展的并行计算的形式得到了广泛的应用。很多集群系统被应用在国计民生的重要领域,集群的规模也在不断扩展。随着集群系统规模的扩展,其出现故障的几率也成指数级增长,所以,集群系统的容错性能成了衡量集群性能的重要指标。检查点设置卷回恢复技术作为一种并行系统中有效的容错方式,在目前的集群系统中得到广泛的应用。本文系统地介绍了集群系统的概念及容错的相关技术,着重介绍了检查点设置卷回恢复技术。分析了当前国内外常见的减少检查点开销的方法。除了用户参与法和编译器辅助内存排除法是真正的减少了检查点的文件大小,从本质上减小了检查点需要保存的进程运行状态。其它方法都是在实际需要保存进程运行状态一定的情况下,从不同侧面减小需要保存的文件大小或者提高检查点和程序的并行性来减少检查点卷回恢复的开销。文章中提出了通过监控系统的当前状态来设置检查点的方法,即在系统状态小的时刻进行设置检查点操作,这样能从根本上减少检查点文件的大小,并克服了原有算法破坏检查点操作透明性的缺点,实验证明这种方法能有效减少检查点开销。文章详细地介绍了基于监控系统状态的设置检查点方法,以及在基于PVM和Linux的集群系统上的实现。由于用户进程在PVM上的运行特点,使得保存检查点工作分别要保存用户进程作为操作系统普通进程的状态和作为PVM任务的状态。系统中采用在设置检查点时刻先退出PVM,再重新加入PVM的方式实现检查点的保存。
论文目录
摘要Abstract第1章 绪论1.1 论文研究背景及意义1.2 论文主要研究内容介绍1.3 论文组织结构第2章 集群系统及容错技术2.1 并行系统介绍2.2 集群系统介绍及特点分析2.3 容错技术概述2.3.1 部件故障和处理机故障2.3.2 前向恢复技术和后向恢复技术2.3.3 冗余容错2.4 本章小结第3章 检查点技术3.1 检查点设置与卷回恢复容错技术概述3.2 检查点容错概念及关键技术分析3.2.1 检查点概念及全局一致状态3.2.2 检查点文件及其主要内容3.3 常见的检查点协议介绍及比较3.3.1 单独依赖检查点的卷回恢复协议3.3.2 基于消息记录的卷回恢复协议3.3.3 协议性能比较3.4 国内外相关研究3.4.1 影响检查点卷回恢复协议性能的因素3.4.2 常见提高检查点卷回恢复协议性能的方法3.4.3 分析比较3.5 本章小结第4章 集群检查点系统的设计4.1 一种减少设置检查点开销的方法4.2 检查点系统设计思路4.2.1 监控模块设计思路4.2.2 监控模型的建立4.2.3 同步过程实现方法4.3 本章小结第5章 集群检查点系统的具体实现5.1 PVM特点介绍及设置检查点方式分析5.1.1 PVM特点介绍5.1.2 设置检查点方式分析5.2 检查点系统具体实现的关键技术分析5.2.1 透明性分析与实现5.2.2 状态监控进程的实现5.3 系统结构及实现5.3.1 系统的结构及整体工作过程5.3.2 检查点保存和恢复工作的实现5.3.3 coordinator进程的实现5.4 本章小结第6章 系统性能分析与评价6.1 实验平台6.2 系统的性能测试与评价6.3 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果致谢
相关论文文献
标签:集群论文; 容错论文; 检查点论文; 监控论文;