机群系统管理体系结构的研究

机群系统管理体系结构的研究

论文题目: 机群系统管理体系结构的研究

论文类型: 博士论文

论文专业: 计算机系统结构

作者: 刘淘英

导师: 徐志伟

关键词: 机群,系统管理,可管理性,网程,协同资源,同步资源,网程检查点,破坏性事务

文献来源: 中国科学院研究生院(计算技术研究所)

发表年度: 2005

论文摘要: 系统管理作为一个复杂的问题有许多值得深入研究的内容。在该领域存在各种如统计分析、数据挖掘、模式识别、反馈控制的研究方法,以期不断改进既有技术和方法,也有许多面对新协议、新功能的工作。这些都是从功能角度出发的研究。本文从体系结构角度出发,对系统管理这类特殊的分布式应用进行了分析,并提出体系结构上的改进。本文的主要贡献有:1.根据对现有机群系统管理软件的调研以及对曙光机群系统管理的个案研究,总结出机群系统管理软件体系结构的抽象模型,以及机群系统管理体系结构中的关键问题:CAR。CAR性质指在考虑机群受管资源之间的依赖关系情况下的一致性、原子性和可修复性问题。一个机群系统管理软件的体系结构所能提供的可管理性由它所解决的CAR程度决定,其中C是一致性,指受管资源之间的依赖关系所引起的操作一致性,A是原子性,指针对多个资源进行管理的时候必须满足的“all_or_reinitiated”条件,R是可修复性,指一个管理器从错误和故障中快速修复的能力。这三个条件均有强弱两级,强的性质考虑了资源之间的关系,而弱的性质则没有考虑。因此,任何机群系统管理软件体系结构的可管理性可以通过考察其满足CAR性质的程度来判断。2.为了解决CAR问题,需要对现有机群系统管理的体系结构进行改造。我们提出一种在机群系统管理体系结构中的标准化的管理器运行时结构——网程,网程集成了协同资源、同步资源、网程检查点和破坏性事务等四项技术,共同解决CAR问题:a.协同资源是机群范围的共享数据结构,网程(管理器)之间共享和交换数据可以通过协同资源进行。b.同步资源是在协同资源基础上实现的可以用来实现全局的互斥操作,为原子性的实现提供基础。c.网程破坏性事务为系统描述有依赖关系的资源组合提供了方法,并负责构造原子性的管理操作序列和部分失效的原子性故障处理。d.网程检查点使网程状态与运行分离,提高了网程的可修复性。3.本文实现了一个面向网程的机群系统管理平台,用以构造各种系统管理工具和应用,并对其进行性能和功能方面的评价。根据测试,该平台的功能都具有较好的性能。此外,我们采用网程的方式修改了曙光4000A系统管理软件包中的系统软件引导程序“控制中心”。该程序修改后代码量减少了19.1%,程序控制流程被简化,结构更加清晰,提高了代码的可读性。4.本文对网程这种标准化的管理器进行了可管理性的定性评价。网程中的破坏性

论文目录:

摘要

Abstract

目录

图目录

表目录

第一章 引言

1.1 系统管理与可管理性

1.2 系统管理研究概况

1.2.1 系统监测与控制

1.2.2 故障管理

1.2.3 功能与结构部署

1.2.4 动态系统优化

1.2.5 管理模式

1.2.6 系统管理软件体系结构

1.2.7 评价方法

1.3 可管理性的提高:功能、体系结构和语言

1.4 体系结构的改进

1.5 本文的贡献与内容组织

第二章 背景与动机

2.1 个案研究:曙光超级服务器系列系统管理软件

2.1.1 Panorama

2.1.2 Clustone

2.2 Beowulf机群系统管理软件

2.3 系统管理抽象模型

2.4 机群系统管理与通用分布式系统和数据库的比较

2.4.1 机群系统管理与通用分布式系统

2.4.2 机群系统管理与数据库系统

2.5 可管理性与CAR

2.5.1 一致性(Consistency)

2.5.2 原子性(Atomicity)

2.5.3 可修复性(Recoverability)

2.5.4 可管理性定性分解

2.5.5 CAR相关工作

2.6 本章小结

第三章 机群系统管理体系结构模型

3.1 客户端/管理器/管理代理三层结构与CAR问题

3.1.1 一致性

3.1.2 原子性

3.1.3 可修复性

3.2 问题的扩展——客户端/资源计算环境

3.2.1 主动存储计算机CAM模型

3.2.2 CAM与CAR

3.3 解决方案——标准化运行时结构

3.3.1 客户端/网程/资源(C/Grip/R)计算模式

3.3.2 标准化运行时结构——网程

第四章 网程关键问题

4.1 通信与同步

4.2 事务

4.3 松耦合体系结构

4.4 个体标识

第五章 网程参考模型

5.1 网程内部构造

5.1.1 基本指令

5.1.2 数据结构

5.1.3 状态及转换

5.2 通信与同步

5.2.1 协同资源

5.2.2 同步资源

5.3 原子操作序列构造——破坏性事务

5.3.1 破坏性补偿

5.3.2 服务一致性谓词

5.3.3 并发控制

5.4 相关工作

第六章 面向网程的机群管理平台

6.1 总体结构

6.2 轻量级远程过程调用LRPC

6.3 协同资源

6.4 退化的协同资源——网程检查点

6.5 同步资源

6.6 破坏性事务

6.7 网程运行环境

6.7.1 资源管理

6.7.2 事务管理

6.7.3 网程管理

6.8 本章小结

第七章 系统评价

7.1 可管理性定性评价

7.2 测试方法和环境

7.3 实验与评价

7.3.1 网程常规操作

7.3.2 网程检查点

7.3.3 破坏性事务

7.3.4 网程通信与同步

7.4 结构化的管理机制

7.4.1 曙光4000A机群控制中心

7.4.2 简化机群配置信息

7.4.3 简化控制流程

7.4.4 基于网程的管理系统的限制

7.5 本章小结

第八章 总结和后续工作

8.1 本文工作总结

8.2 未来研究方向

8.2.1 编程语言对机群系统管理的支持

8.2.2 网程模型的其它应用

8.2.3 网程模型的完善、后续开发和优化

参考文献

致谢

作者简介

发布时间: 2006-12-27

参考文献

  • [1].过程系统优化的分布式并行计算[D]. 张帆.浙江大学2002

相关论文

  • [1].大规模机群文件系统的关键技术研究[D]. 熊劲.中国科学院研究生院(计算技术研究所)2006
  • [2].机群作业管理系统研究[D]. 雷州.中国科学院研究生院(计算技术研究所)1999
  • [3].机群系统OpenMP研究[D]. 吴少刚.中国科学院研究生院(计算技术研究所)2004
  • [4].分布式环境中的资源发现研究[D]. 龚奕利.中国科学院研究生院(计算技术研究所)2006
  • [5].机群系统容错中间件技术研究[D]. 黄伟.中国科学院研究生院(计算技术研究所)2005
  • [6].蓝鲸分布式文件系统的资源管理[D]. 黄华.中国科学院研究生院(计算技术研究所)2005
  • [7].网格用户管理关键问题的研究[D]. 刘利民.中国科学院研究生院(计算技术研究所)2005
  • [8].面向网络计算的作业调度系统关键技术研究[D]. 梁毅.中国科学院研究生院(计算技术研究所)2005
  • [9].个性化需求的描述、获取与推断—案例研究[D]. 张丙奇.中国科学院研究生院(计算技术研究所)2005
  • [10].机群互连网络研究[D]. 安学军.中国科学院研究生院(计算技术研究所)2003

标签:;  ;  ;  ;  ;  ;  ;  ;  

机群系统管理体系结构的研究
下载Doc文档

猜你喜欢