高可用集群系统中回卷恢复容错技术研究

高可用集群系统中回卷恢复容错技术研究

论文摘要

计算技术的迅猛发展,使得集群得到了广泛应用,构建在集群上的应用系统,其可用性一直是备受关注的问题。高可用集群的出现就是为了使集群能够提供高度可靠的整体服务,以应对计算硬件和软件的易错性。作为一种低成本的容错策略,回卷恢复技术已成为大众化应用系统首选的容错解决方案。然而,将回卷恢复技术应用到高可用集群中产生了许多新的问题需要进一步研究,比如:实时任务检查点设置,快速故障转移,以及可靠集群通信协议等。本文以解决集群系统中回卷恢复技术所面临的关键问题为目标,对以下内容进行了创新性研究:系统地介绍了回卷恢复技术的基本原理、模型、主要协议算法,以及近年来的研究成果,分析了各种回卷恢复协议的特点和应用范围。研究了优化检查点设置间隔问题,对检查点设置策略中系统故障时间分布进行了细致地分析,并针对集群系统中存在的大量实时任务,提出了一种基于非精确计算的检查点设置算法,该算法可以为多任务实时系统提供容错和确定性的实时保证。实验结果表明该算法提高了系统的容错能力,使得实时任务能够在按时完成的前提下容忍更多的故障。故障转移是回卷恢复的关键技术点,它能在系统资源部分损失的情况下,对剩余可用资源重新配置并恢复需要继续执行的计算任务。针对目前大多数的故障转移策略不能保证服务可用性或仅适用于确定性系统的问题,本文提出了一种面向服务的快速透明故障转移模型(SOFailover,Service-oriented Fast Transparent Failover)及其算法,并从理论上分析了算法的一致性约束。实验结果表明,SOFailover具有较短的故障转移延时和较低的系统开销,能够在保证服务可用性前提下高效透明地对非确定系统进行故障转移。研究了集群系统中数据传输协议。回卷恢复技术提高了集群系统对通信的要求,而目前主流数据传输协议无法满足这些需求。本文提出了一种基于UDP的高效可靠数据传输协议(REUDP,Reliable and Efficient User DatagramProtocol)及其性能分析模型,在保证可靠性的前提下,使系统通信能力得到极大的提高。实验结果表明,REUDP可以在高性能集群系统网络中非常有效地运行,分析模型能够结合网络实际情况对其性能做出较为准确的预测。随着集群系统规模的不断扩大,系统平均故障时间也在逐步缩短,容错和可靠性成为计算任务稳定运行的基本保障。传统的容错策略具有很多局限性,无法适应大规模异构集群系统容错的需求,本文提出一种面向大规模集群系统的回卷恢复容错策略,该策略不需要任何保存检查点和日志的可靠存储设备,在恢复期间也不依赖额外备用的计算节点去接替失效节点,计算任务会继续运行在剩余的计算节点上。而且,该策略能够在故障后自动进行负载均衡,有效地降低了计算节点损失对系统的影响。软件复用技术已从通用类库进化到了面向领域的应用框架和设计模式,针对高可用系统软件的特点和复用技术在软件设计中的影响,本文基于模式语言设计实现了一种可复用的回卷恢复应用框架(RRAF,Rollback Recovery Application Framework),该框架能够涵盖以上提出的算法及策略。本文具体阐述了RRAF的体系结构,实现机制,模式语言的建立及相互间的协作关系。最后给出RRAF在流媒体服务器软件设计中的具体应用,对模式语言在领域应用和实现功能软件复用等方面作了有益的探索。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 引言
  • 1.2 集群技术现状及发展趋势
  • 1.2.1 集群技术概述
  • 1.2.2 集群系统研究现状
  • 1.2.3 集群技术的发展趋势
  • 1.3 回卷恢复容错技术研究现状
  • 1.3.1 回卷恢复系统模型与相关概念
  • 1.3.2 基于检查点的回卷恢复协议
  • 1.3.3 基于日志的回卷恢复协议
  • 1.3.4 回卷恢复技术实现优化及研究热点
  • 1.4 本文的研究目的和意义
  • 1.5 本文的研究内容
  • 1.6 论文的组织结构
  • 第2章 基于非精确计算的实时任务检查点算法
  • 2.1 引言
  • 2.2 检查点设置策略中系统故障时间分布
  • 2.2.1 系统故障时间分布剖析
  • 2.2.2 检查点设置模型及算法
  • 2.2.3 实验评估与分析
  • 2.3 基于非精确计算的实时任务系统模型
  • 2.3.1 非精确计算理论概述
  • 2.3.2 非精确计算实时系统模型
  • 2.4 基于非精确计算的检查点设置算法
  • 2.4.1 单任务检查点设置算法
  • 2.4.2 多任务检查点设置算法
  • 2.5 实验与评价
  • 2.6 本章小结
  • 第3章 面向服务的快速透明故障转移模型及算法
  • 3.1 引言
  • 3.2 服务可用性分析及服务状态保存技术
  • 3.2.1 服务可用性分析
  • 3.2.2 服务状态保存技术
  • 3.3 面向服务的快速透明故障转移模型
  • 3.3.1 故障转移模型及定义
  • 3.3.2 故障转移操作原语及约束
  • 3.4 面向服务的快速透明故障转移算法
  • Active'>3.4.1 主动故障转移算法SOFActive
  • Passive'>3.4.2 被动故障转移算法SOFPassive
  • 3.4.3 SOFailover算法一致性约束分析
  • 3.5 实验及评价
  • 3.5.1 服务吞吐量
  • 3.5.2 故障转移延时
  • 3.5.3 与用户层实现比较
  • 3.6 与HotSwap等相关研究的对比
  • 3.7 本章小结
  • 第4章 集群系统中高效可靠数据传输协议研究
  • 4.1 引言
  • 4.2 集群系统数据传输协议研究现状
  • 4.3 基于UDP的高效可靠传输协议REUDP
  • 4.3.1 REUDP体系结构
  • 4.3.2 连接的建立与关闭
  • 4.3.3 滑动窗口设计
  • 4.3.4 流量控制
  • 4.3.5 确认技术
  • 4.4 REUDP协议性能分析评估模型
  • 4.5 REUDP协议实现及评测
  • 4.5.1 REUCP实现描述
  • 4.5.2 REUDP性能评测
  • 4.6 本章小结
  • 第5章 大规模异构集群系统中回卷恢复策略研究
  • 5.1 引言
  • 5.2 大规模集群系统容错研究现状与存在的问题
  • 5.2.1 基于检查点策略
  • 5.2.2 基于日志策略
  • 5.3 考虑负载均衡的大规模异构集群系统回卷恢复模型
  • 5.3.1 前提假设
  • 5.3.2 集群容错系统模型
  • 5.3.3 负载均衡
  • 5.4 大规模异构集群系统中回卷恢复策略
  • 5.4.1 数据结构
  • 5.4.2 消息日志协议
  • 5.4.3 检查点协议
  • 5.4.4 恢复协议
  • 5.4.5 正确性分析
  • 5.4.6 可靠性分析
  • 5.5 实验及评价
  • 5.5.1 容错开销
  • 5.5.2 恢复性能
  • 5.6 本章小结
  • 第6章 基于模式语言构建回卷恢复应用框架
  • 6.1 引言
  • 6.2 回卷回复应用程序框架
  • 6.2.1 高可用集群系统模型定义
  • 6.2.2 回卷恢复应用框架服务组件
  • 6.3 关键设计模式
  • 6.3.1 反应堆模式
  • 6.3.2 接受器模式
  • 6.3.3 主动对象模式
  • 6.3.4 服务配置器模式
  • 6.3.5 回卷恢复容错模式
  • 6.4 实现及评价
  • 6.5 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].轨道车辆人机界面软件冗余设计与可靠性分析[J]. 计算机应用与软件 2011(12)
    • [2].用决策树方法优化表决器[J]. 电脑开发与应用 2010(02)
    • [3].一种面向方面的软件容错能力增强工具[J]. 计算机应用与软件 2012(02)
    • [4].VarBIFT:指令级的变量冗余容错检测技术[J]. 计算机工程与设计 2010(10)
    • [5].计算机系统的容错技术方法[J]. 单片机与嵌入式系统应用 2010(11)
    • [6].指令级的变量容错恢复[J]. 计算机工程 2010(05)
    • [7].苛求软件可靠性方法、技术与模型研究[J]. 城市轨道交通研究 2012(02)
    • [8].面向硬实时系统的容错调度算法研究[J]. 小型微型计算机系统 2010(09)
    • [9].容错EDF调度的网络信息安全策略研究[J]. 网络与信息 2008(05)
    • [10].硬实时系统中自适应反馈软件容错动态调度算法研究[J]. 宇航学报 2010(11)
    • [11].主/副版本模型中预分配容错实时调度算法[J]. 计算机研究与发展 2015(03)
    • [12].基于CPU使用率监测的软件容错研究[J]. 计算机科学 2014(07)
    • [13].PLC抗干扰技术在高炉自动化中的应用[J]. 自动化仪表 2009(10)
    • [14].软件健康管理在ADIRU中的应用及验证[J]. 电光与控制 2015(07)
    • [15].可进化模块冗余软件混合容错模型[J]. 南京理工大学学报 2012(02)
    • [16].虚拟计算环境中的分布式软件日志管理机制[J]. 武汉大学学报(理学版) 2014(05)
    • [17].面向数控系统的容错实时调度算法研究[J]. 中国机械工程 2010(15)
    • [18].软件容错模型中的部分抢占实时调度算法[J]. 浙江大学学报(工学版) 2009(06)

    标签:;  ;  ;  ;  ;  

    高可用集群系统中回卷恢复容错技术研究
    下载Doc文档

    猜你喜欢