基于PVM的机群容错方法研究与实现

基于PVM的机群容错方法研究与实现

论文摘要

随着微处理器和网络技术的不断发展,以工作站机群系统为代表的计算环境成为当前并行计算系统的研究热点。但随着机群系统中节点数目的增加,任意节点失败而导致整个系统发生故障的机率大大提高;并且随着任务规模的扩大,计算时间不断增加,节点发生失败的机率也会随之增加。在缺乏必要的保护措施下,某个计算节点发生故障将导致整个系统失败,从而使此前大量的计算工作付诸东流。所以,并行系统要求具有良好的容错功能来保证和提高其可靠性。检查点能够保存和恢复程序的运行状态,是并行系统中实现容错的重要手段。检查点设置方法可以分为同步检查点和异步检查点。同步检查点方法具有算法简单,空间开销较小,直接恢复等优点,已广泛应用在工作站机群系统中。但它必须在生成全局检查点前后进行系统同步,同步操作将暂时中止进程的运行并导致大量的同步通讯开销。PVM 是目前比较流行的并行程序设计环境,它所提供的消息传递机制支持高效的异构网络计算。虽然PVM 具有一定的容错功能,能检测系统故障,但却没有提供容错策略,对系统故障进行恢复。传统的基于消息驱赶机制的同步检查点设置方法,虽然简单有效,但由于协调过程中引入的辅助控制消息数目和节点数目之间呈O(N2)关系,随着节点数目的增多,这些控制消息的数目将会急剧增加,其带来的时间开销是不容忽视的。为了降低同步检查点设置的时间开销,本文提出了一种基于PVM 的准同步检查点设置方法。通过检查点控制进程向所有进程发送检查点设置信号,各节点接收到信号后,停止应用程序的运行,开始进行检查点操作,检查点操作完成后各进程独立地启动应用程序;同时引入检查点计数器,识别在检查点时刻处于通信信道中的消息,对它们采取延后记录的方法,构造出一个一致性全局状态。同步检查点要求各进程在检查点发起时刻与结束时刻都要进行同步,并且通过清空通信信道中的消息来构造一致性全局状态。与此不同的准同步检查点方法只是在检查点发起时刻发送同步信号请求检查点操作,然后各节点独立地进行状态保存,对于通信信道内的消息采用异步记录的方式来实现一致性全局状态。准同步检查点方法吸取了同步检查点方法的优点,又通过消息记录方式实现各节点间独立进行状态保存,大大降低了检查点的同步开销,提高了检查点操作效率。该方法在PVM 环境下得以实现,实验结果表明此方法具有较好的性能。最后在节点冗余的系统结构上,采用准同步检查点设置方法,实现了PVM 的容错功能。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 论文研究背景和意义
  • 1.2 国内外研究现状
  • 1.3 论文主要研究内容
  • 1.4 论文章节安排
  • 2 并行计算和容错
  • 2.1 并行计算
  • 2.1.1 并行计算的基础知识
  • 2.1.2 并行计算机体系结构
  • 2.1.3 机群系统
  • 2.2 容错技术的理论基础
  • 2.2.1 系统故障的表现形式及其错误的根源
  • 2.2.2 容错技术的内容
  • 2.2.3 系统容错策略的分类
  • 2.2.4 冗余设计
  • 2.3 本章小结
  • 3 检查点设置和卷回恢复技术
  • 3.1 什么是检查点
  • 3.2 并行程序检查点
  • 3.2.1 基本概念
  • 3.2.2 同步检查点算法
  • 3.2.3 异步检查点算法
  • 3.3 检查点设置与卷回恢复协议分析
  • 3.3.1 卷回恢复中出现的问题
  • 3.3.2 CRR 协议
  • 3.4 检查点算法的改进策略
  • 3.4.1 减少检查点时刻所需保存的程序状态信息
  • 3.4.2 提高检查点操作和程序运行的并行性
  • 3.5 本章小结
  • 4 基于 PVM 的准同步检查点设置方法
  • 4.1 网络并行计算平台PVM
  • 4.1.1 PVM 的产生和发展
  • 4.1.2 PVM 的特点
  • 4.1.3 PVM 的组成
  • 4.1.4 PVM 的工作模式
  • 4.1.5 PVM 的通信机制
  • 4.2 基于消息驱赶机制的同步检查点
  • 4.3 基于PVM 的准同步检查点设置方法
  • 4.3.1 构造一致性全局状态
  • 4.3.2 准同步协议描述
  • 4.3.2.1 检查点设置协议
  • 4.3.2.2 卷回恢复协议
  • 4.3.2.3 正常计算时消息的处理
  • 4.4 性能测试
  • 4.4.1 实验平台
  • 4.4.2 实验结果
  • 4.5 本章小结
  • 5 PVM 容错功能的实现
  • 5.1 系统结构
  • 5.2 实现技术
  • 5.2.1 检查点设置与卷回恢复
  • 5.2.2 PVM 消息记录
  • 5.2.3 任务号映射
  • 5.2.4 检查点文件的保存
  • 5.3 性能分析
  • 5.4 本章小结
  • 6 论文总结
  • 致谢
  • 参考文献
  • 附录
  • 独创性声明
  • 学位论文版权使用授权书
  • 相关论文文献

    • [1].人参果PVM病毒的克隆与鉴定[J]. 甘肃农业科技 2013(08)
    • [2].PVM环境下的高性能机群计算机系统探究[J]. 电脑编程技巧与维护 2011(20)
    • [3].基于PVM的并行计算[J]. 广东石油化工学院学报 2012(04)
    • [4].PVM聚合物型无固相钻井液研究与应用[J]. 地质与勘探 2010(06)
    • [5].FBRM、PVM在氯化钾结晶介稳区测定中的应用研究[J]. 盐科学与化工 2019(11)
    • [6].贸易条件波动对经常项目均衡的非线性HLM效应——基于PVM模型的再检验[J]. 国际商务(对外经济贸易大学学报) 2015(04)
    • [7].Trie和PVM并行执行的消息传递方式[J]. 信息与电脑(理论版) 2019(19)
    • [8].基于PVM的可视化水合物生成实验[J]. 实验室研究与探索 2014(11)
    • [9].基于任务控制与消息寻径的PVM性能优化及实测分析[J]. 桂林理工大学学报 2010(01)
    • [10].基于Windows XP下网络并行计算平台PVM的研究[J]. 硅谷 2009(14)
    • [11].TMV、PVM和CMV干扰载体构建及对人参果遗传转化[J]. 核农学报 2014(01)
    • [12].基于PVM的网络并行计算[J]. 计算机与数字工程 2009(09)
    • [13].基于PVM的MCNP程序的并行计算解决方案[J]. 核电子学与探测技术 2010(08)
    • [14].FBRM、PVM在低钠光卤石制取氯化钾结晶中的应用[J]. 广东化工 2019(15)
    • [15].开源工作流平台jBPM:过程组件模型与PVM[J]. 程序员 2008(05)
    • [16].MDCK细胞中IFN-γ诱导的免疫相关GTP酶在弓形虫PVM表面的定位研究[J]. 中国预防兽医学报 2019(06)
    • [17].关于轧机平面图/宽度设定模型(PVM)的研究[J]. 常州信息职业技术学院学报 2012(02)
    • [18].Linux环境下构架基于PVM的并行机群[J]. 电脑开发与应用 2008(02)
    • [19].基于PVM的并行遗传优化研究[J]. 计算机光盘软件与应用 2013(16)
    • [20].马铃薯M病毒生物学特性研究[J]. 东北农业大学学报 2017(01)
    • [21].并行计算技术及其在勘探地球物理学中的现状与展望[J]. 地球物理学进展 2010(02)
    • [22].应用三重RT-PCR技术检测三种马铃薯病毒[J]. 中国马铃薯 2015(03)

    标签:;  ;  ;  ;  ;  

    基于PVM的机群容错方法研究与实现
    下载Doc文档

    猜你喜欢