单一映像集群系统容错机制的研究

单一映像集群系统容错机制的研究

论文摘要

集群系统已成为高性能计算的主流平台,单一系统映像集群正逐步应用企业计算。然而采用商品化市售部件构造的集群系统平均故障间隔时间短,在运行时容易发生节点失效。有效处理节点失效并使之对用户透明对单一系统映像集群系统具有重要意义,相关研究已成为当前学术界的热点。 本课题的研究基于Kerrighed单一映像集群操作系统,Kerrighed具有良好的单一系统映像特性和优异的性能,但目前还没有实现动态容错。本文首先研究了计算机系统的常用容错技术以及系统可靠性分析评估的数学模型,分析了Kerrighed及其它典型集群操作系统的内部结构及其分布式服务模型。由于节点失效是集群系统中经常发生而且集群操作系统必须处理的事件,因此我们寻求在集群操作系统体系结构上对容错提供支持。本文在抽象出集群操作系统的分布式服务模型基础上,提出了动态配置管理层的概念以在集群操作系统中实现动态配置管理和节点失效处理,并用马尔可夫模型分析了在引入动态配置管理层后可维修容错集群系统的可靠性。 另一方面,集群操作系统的容错机制依赖于节点失效的快速检测,节点失效检测通常由心跳协议来完成。针对大规模分布式管理的集群系统,本文在研究中提出并实现了Heartbeat Ring心跳协议,该协议具有消息复杂度低、可扩展性好和占用系统资源少等优点。基于Heartbeat Ring心跳机制我们实现了Kerrighed集群系统基本的动态容错并给出了相关测试结果。

论文目录

  • 图目录
  • 表目录
  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • §1.1 课题背景和意义
  • 1.1.1 集群技术的起源与发展
  • 1.1.2 单一系统映像技术
  • 1.1.3 集群系统的管理方式
  • 1.1.4 计算机系统的容错机制
  • §1.2 国内外研究现状
  • §1.3 课题研究内容和论文结构
  • 第2章 集群系统的容错机制
  • §2.1 容错的基本概念与技术
  • 2.1.1 基本概念
  • 2.1.2 容错相关技术
  • 2.1.3 故障处理的一般过程
  • 2.1.4 表征容错系统的参数指标
  • 2.1.5 分布式系统故障模型
  • §2.2 心跳机制
  • 2.2.1 心跳子系统的设计要求
  • 2.2.2 心跳系统的实现方式
  • 2.2.3 心跳系统的安全性设计
  • 2.2.4 集群系统的心跳管理方式
  • 2.2.5 分布式系统的选举算法
  • §2.3 检查点/恢复技术
  • §2.4 进程迁移
  • §2.5 容错系统可靠性分析方法
  • 2.5.1 基于可靠性框图的分析方法
  • 2.5.2 基于马尔可夫模型的分析方法
  • §2.6 集群操作系统与容错
  • 第3章 KERRIGHED集群操作系统分析
  • §3.1 KERRIGHED集群系统简介
  • §3.2 KERRIGHED与典型集群操作系统的对比
  • §3.3 KERRIGHED进程管理服务
  • §3.4 KERRIGHED全局存储管理服务
  • §3.5 KERRIGHED进程间通讯服务
  • 3.5.1 动态流服务
  • 3.5.2 KerNet动态流
  • 3.5.3 基于动态流实现标准通讯接口
  • §3.6 KERRIGHED对容错的支持
  • 3.6.1 虚像进程的概念
  • 3.6.2 虚像进程的应用
  • §3.7 KERRIGHED操作系统的分布式服务模型
  • 第4章 动态配置管理层
  • §4.1 动态配置管理层概念
  • 4.1.1 集群操作系统分布式服务模型
  • 4.1.2 集群配置变化对分布式服务的影响
  • §4.2 动态配置管理层的设计
  • 4.2.1 动态配置管理层的功能
  • 4.2.2 动态配置管理层结构
  • 4.2.3 目录项迁移
  • §4.3 集群配置变化的处理
  • 4.3.1 可预知配置变化处理
  • 4.3.2 节点失效处理
  • §4.4 KERRIGHED系统中集成动态配置管理层
  • §4.5 容错指标分析
  • 第5章 心跳环算法
  • §5.1 现有心跳机制分析
  • §5.2 HEARTBEAT RING心跳机制
  • 5.2.1 算法思想
  • 5.2.2 算法描述
  • §5.3 HEARTBEAT RING参数设置
  • §5.4 消息复杂性分析
  • §5.5 HEARTBEAT RING算法特性分析
  • §5.6 心跳环算法小结
  • 第6章 动态容错的实现
  • §6.1 心跳检测的实现
  • 6.1.1 心跳守护进程
  • 6.1.2 Heartbeat Ring算法实现
  • 6.1.3 节点失效处理
  • 6.1.4 心跳消息格式
  • §6.2 KERRIGHED基本容错的实现
  • §6.3 测试结果
  • 第7章 总结与展望
  • §7.1 课题总结
  • §7.2 展望
  • 致谢
  • 攻读硕士期间发表的学术论文
  • 参考文献
  • 相关论文文献

    • [1].集群系统在机场通信中的应用[J]. 电子技术与软件工程 2018(23)
    • [2].高性能计算集群系统建设与运行管理研究[J]. 软件导刊 2017(03)
    • [3].集群系统在水下爆炸仿真中的应用[J]. 科技创新导报 2012(06)
    • [4].一种宽带集群系统和窄带集群系统互通方法的研究[J]. 计算机产品与流通 2020(03)
    • [5].航空集群系统构建机理研究[J]. 火力与指挥控制 2017(11)
    • [6].基于集群系统硬件监控技术的机房管理系统的改进策略[J]. 教育教学论坛 2014(04)
    • [7].河南省档案网站集群系统建设的特色、问题与建议[J]. 档案管理 2014(01)
    • [8].基于集群系统结构的企业集群成长与政府行为研究[J]. 商业研究 2010(08)
    • [9].基于5G的警务集群系统[J]. 电讯技术 2020(10)
    • [10].基于GPU的并行集群系统的发展[J]. 计算机光盘软件与应用 2013(18)
    • [11].控制转发分离的路由器虚拟集群系统[J]. 电信网技术 2011(11)
    • [12].数据库集群系统多指标动态负载均衡技术研究[J]. 电子设计工程 2018(22)
    • [13].TD-SCDMA集群系统中的干扰分析[J]. 数字通信世界 2011(06)
    • [14].一种分布式集群系统[J]. 微计算机信息 2008(36)
    • [15].水面无人艇集群系统研究[J]. 舰船科学技术 2019(07)
    • [16].一种动态网络负载平衡集群系统的实现[J]. 电脑知识与技术 2008(15)
    • [17].浅谈350M好易通(HYT)QH-1327集群系统整合大吉集群系统后遇到的问题[J]. 广东科技 2012(13)
    • [18].基于TD-LTE集群系统的群组寻呼处理策略[J]. 广东通信技术 2012(10)
    • [19].关于Linux集群系统故障的探讨[J]. 中国战略新兴产业 2017(16)
    • [20].多集群系统中资源监控模块的设计与实现[J]. 计算机测量与控制 2016(08)
    • [21].基于并行模拟的多核集群系统性能预测和分析[J]. 国防科技大学学报 2010(05)
    • [22].在集群系统中实现均衡负载[J]. 科技信息(科学教研) 2008(22)
    • [23].融媒体互动图文包装集群系统构建[J]. 广播与电视技术 2017(03)
    • [24].RoF技术在数字无线集群系统中的应用研究[J]. 光通信技术 2011(07)
    • [25].解决HIS集群系统的性能问题[J]. 医学信息 2008(12)
    • [26].基于LVS的高性能负载均衡集群系统的设计[J]. 广西民族大学学报(自然科学版) 2012(02)
    • [27].基于Linux的集群系统建设与研究[J]. 电子设计工程 2016(04)
    • [28].HIS集群系统性能问题的解决[J]. 中国数字医学 2010(10)
    • [29].基于GPU的并行集群系统的发展[J]. 中国外资 2013(22)
    • [30].基于集群系统性能提升的思考[J]. 金融科技时代 2012(07)

    标签:;  ;  ;  ;  ;  

    单一映像集群系统容错机制的研究
    下载Doc文档

    猜你喜欢