论文题目: 机群系统容错中间件技术研究
论文类型: 博士论文
论文专业: 计算机应用技术
作者: 黄伟
导师: 樊建平
关键词: 机群,容错,中间件框架,分区机制,组服务,相关失效,随机回报网
文献来源: 中国科学院研究生院(计算技术研究所)
发表年度: 2005
论文摘要: 在高性能计算机的研究当中,如何保证系统的可用性和应用的可靠性一直就是需要首要考虑的问题之一。机群以其高性价比和高可扩展性已经成为构造高性能计算机一种主要的方法,而节点间松散耦合的结构也使得机群系统更易于保证系统的可用性。随着机群系统规模的逐渐增大,也带来许多了新的问题,如更加频繁的组件失效,软件体系结构的扩展性等问题。这些新的问题对如何保证系统的可用性带来了更多的挑战。机群容错中间件技术将机群、容错和中间件技术结合在一起,是一种在机群系统软件层实现的能够同时保证系统可用性和应用可靠性的方法。 本文结合曙光4000A系统的机群操作系统Phoenix高可用核心的设计与实现,对机群容错中间件的关键技术进行了探索,重点研究了:1)在大规模情况下,适用于机群系统的容错中间件的框架与体系结构;2)在容错中间件技术中,适合于大规模机群的容错实现机制;3)在采用容错中间件情况下,对机群系统可用性和应用可靠性的评价。本文取得的研究成果如下: 1.在提出和分析机群系统规模变大给系统可用性所带米的新的挑战后,提出了一个用于大规模机群系统的容错中间件框架DCFT-Kernel。这个框架采用了分区管理的思想及“平等式”与“结构式”结合的体系结构,较当前的机群高可用软件有效地解决了大规模系统所带来的系统扩展性、软件体系结构扩展性、和容错机制扩展性等问题。DCFT-Kernel框架由组服务、故障管理服务、配置服务、事件服务和用户接口组成,能够提供完备的错误侦测、错误修复、错误通知功能。 2.在分析了将容错技术应用到机群系统在理论上需要解决的问题后,提出了一种用于实现机群容错中间件核心容错机制的关键技术——组服务技术。机群容错中间件的工作基础是自身的高可靠,组服务技术通过采用组结构和成员关系协议,能够保证机群容错中间什自身在运行时严格的一致性和高可靠性。在组服务基础上,提出的机群容错机制充分考虑了机群系统和并行应用的特点,提供了层次化的故障侦测和处理方法,能够对大部分的系统故障和应用故障进行有效的处理。 3.在曙光4000A系统上实现了一个实际运行的机群容错中间件系统DCFTM。DCFTM位于机群操作系统的核心,为机群操作系统的各种服务部件提供高可用支持,同时也可以直接向上层应用程序提供编程接口,保障应用程序的容错运行。通过对DCFTM实际运行的性能分析表明:1)DCFTM能够保证机群操作系统中各类服务的高可用运行,在故障处理时可以提供很高的响应时间,能够及时的发现和修复各种故障,并通知这些事件。2)DCFTM只占据很少的系统开销,只要将心跳间隔时
论文目录:
声明
关于论文使用授权的说明
摘要
Abstract
目录
第一章 引言
1.1 机群高可用系统研究现状
1.2 容错中间件技术的提出
1.2.1 分布式系统容错计算的发展
1.2.2 容错中间件思想
1.3 机群容错中间件
1.3.1 研究动机
1.3.2 基本功能
1.3.3 性能目标
1.4 本文的贡献与内容组织
第二章 机群容错中间件关键技术
2.1 基本问题
2.1.1 系统模型
2.1.2 故障模型
2.1.3 分布式共识问题
2.1.4 安全性和活性
2.2 机群容错中间件关键技术
2.2.1 机群容错中间件框架
2.2.2 机群容错中间件容错机制
2.3 机群容错中间件评价
2.4 相关研究项目
2.4.1 分布式系统容错中间件标准
2.4.2 分布式系统容错中间件项目
2.4.3 机群高可用系统
2.4.4 相关研究小结
2.5 小结
第三章 面向大规模机群系统的容错中间件框架
3.1 多机高可用系统与大规模机群高可用系统
3.1.1 双机与多机高可用系统
3.1.3 大规模机群高可用系统
3.2 当前容错中间件体系结构的不足
3.2.1 当前体系结构的性能分析
3.2.2 当前体系结构的不足
3.3 面向大规模机群的容错中间件框架DCFT-Kernel
3.3.1 DCFT-Kernel概述
3.3.2 心跳服务与分区管理
3.3.3 故障管理
3.3.4 事件服务
3.3.5 配置服务
3.3.6 对应用的支持
3.4 小结
第四章 基于组服务的机群容错机制
4.1 故障假设
4.2 组服务技术
4.2.1 基本定义
4.2.2 工作原理
4.2.3 基本性质
4.2.4 故障侦测器
4.3 基于组服务的机群层次化故障处理机制
4.3.1 节点与网络层
4.3.2 中间件层
4.3.3 应用层
4.3.4 组服务联邦机制
4.4 组服务关键问题与实现
4.4.1 基本组管理
4.4.2 组视图管理
4.4.3 元组故障管理
4.4.4 通信协议
4.4.5 应用接口
4.5 小结
第五章 容错中间件DCFTM的设计与实现
5.1 系统环境
5.2 机群容错中间件DCFTM的设计思想
5.2.1 机群操作系统容错核心
5.2.2 层次化中间件
5.2.3 基于服务的一体化构件
5.2.4 自主计算
5.3 设计与实现
5.3.1 主要实现机制
5.3.2 系统部署与自动引导
5.3.3 动态配置与配置界面
5.3.4 用户接口与用户使用环境
5.4 性能评价
5.4.1 系统起动性能
5.4.2 组服务性能评价
5.4.3 事件服务性能评价
5.5 应用实例
5.5.1 曙光4000A监控系统
5.5.2 基于组服务的上海证券高可用指数计算系统原型
5.6 小结
第六章 基于容错中间件的机群系统可用性与应用可靠性评价
6.1 系统可用性评价技术
6.2.1 可用性评价方法
6.2.2 可用性评价指标
6.2.3 可用性评价参数
6.2 考虑相关性的机群系统可用性评价
6.3.1 问题描述
6.3.2 马尔可夫回报模型与随机回报网
6.3.3 模型
6.3.4 结果分析
6.3 基于容错中间件的机群系统应用可靠性评价
6.4.1 应用可靠性评价问题描述
6.4.2 应用可靠性评价模型
6.4.3 应用可靠性评价与Sensitivity分析
6.4 影响容错中间件的关键因素
6.5 小结
第七章 结论及下一步工作
7.1 本文的主要工作及贡献
7.2 后续工作
参考文献
致谢
作者简历
发布时间: 2006-12-29
参考文献
- [1].面向普适计算的自适应中间件模型与方法研究[D]. 吴卿.浙江大学2006
- [2].面向分布对象环境的可信中间件关键技术研究[D]. 李琪林.电子科技大学2006
- [3].IP网络环境中支持QoS机制的中间件系统的研究[D]. 郭乐深.电子科技大学2001
相关论文
- [1].高可靠容错实时系统的支撑技术研究[D]. 陈宇.电子科技大学2001
- [2].面向对象的容错中间件的研究与实现[D]. 周明辉.中国人民解放军国防科学技术大学2002
- [3].分布对象中间件安全关键技术研究[D]. 滕猛.国防科学技术大学2003
- [4].容错实时系统可调度性分析研究[D]. 王磊.浙江大学2005
- [5].面向普适计算的自适应中间件模型与方法研究[D]. 吴卿.浙江大学2006
- [6].安全中间件系统关键技术研究[D]. 向生建.电子科技大学2006
- [7].面向分布对象环境的可信中间件关键技术研究[D]. 李琪林.电子科技大学2006
- [8].机群服务器聚集系统研究[D]. 陈明宇.中国科学院研究生院(计算技术研究所)2000
- [9].机群系统管理体系结构的研究[D]. 刘淘英.中国科学院研究生院(计算技术研究所)2005
- [10].大规模分布式仿真系统容错关键技术研究[D]. 刘云生.国防科学技术大学2006