网格容错关键技术的研究

网格容错关键技术的研究

论文摘要

随着计算技术和互联网技术的进一步发展,网格已经从单纯的高性能计算系统发展成为在异构、动态的分布式环境下进行资源的共享和协同计算的基础设施。然而,正是由于网格的异构性、动态性等特点,给网格容错带来了很大的挑战。本文在基本的四种容错方法出错重试(retry),替代资源(alternateresource),检查点(checkpoint)和作业复制(replication)基础上,提出了一种新的自适应的容错方法,并在CGSP(中国教育科研网格公共支撑平台)中实现。通过数学建模,模拟实验和在真实环境中的实验,我们的方法在各方面都取得了很好的表现。本文的主要工作和贡献有:●提出了网格作业级别的自适应容错机制,该机制在作业平均执行时间和系统资源消耗方面比已有的网格容错机制都好。●对本文提出的自适应容错机制通过概率统计的方法,以作业平均执行时间进行建模,通过模拟分析,该模型能够很好的反映该方法。●提出了资源消耗的概念。以往的容错机制只关注作业平均执行时间,然而在分布式系统中,尤其是网格系统中,资源消耗也是衡量一个容错机制合理与否的重要评价指标。●针对本文提出的资源消耗的评价指标,对传统的四种容错方法以及本文提出的自适应容错方法进行了数学建模。●对本文中所有提到的容错机制都进行了模拟,并和自适应容错机制进行了比较,比较结果显示我们的自适应容错机制在作业平均执行时间和资源消耗上都表现突出。●在一个真实的生物信息学网格系统上进行了实验,实验结果再次证实我们的自适应容错机制的优越性。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 网格计算概述
  • 1.1.1 网格的概念
  • 1.1.2 网格简单发展历史回顾
  • 1.1.3 网格计算中的关键问题
  • 1.2 网格作业的容错
  • 1.2.1 网格中的错误
  • 1.2.2 网格容错的必要性
  • 1.2.3 网格容错的困难和挑战
  • 1.3 本文研究的主要内容和主要贡献
  • 1.3.1 研究什么和不研究什么
  • 1.3.2 各章内容简介
  • 1.3.3 本文的主要贡献
  • 第2章 相关工作
  • 2.1 容错的四个基本方法
  • 2.1.1 出错重试(retry)
  • 2.1.2 替代资源(alternate resource)
  • 2.1.3 检查点(checkpoint)
  • 2.1.4 作业复制(replication)
  • 2.2 现有网格中间件的容错方法
  • 2.2.1 单方法的容错
  • 2.2.2 组合方法的容错
  • 2.2.3 可配置的容错方法
  • 2.3 中国教育科研网格公共支撑平台(CGSP)
  • 2.3.1 CGSP整体构架
  • 2.3.2 CGSP执行管理的体系结构
  • 第3章 作业级别的自适应容错机制
  • 3.1 本章引论
  • 3.2 网格容错的基本要求
  • 3.2.1 自适应的处理多种错误
  • 3.2.2 网格应用和错误处理的分离
  • 3.2.3 系统资源消耗小
  • 3.3 容错四个基本算法的优缺点
  • 3.4 作业级别的自适应容错机制
  • 第4章 自适应容错算法平均执行时间的评价模型
  • 4.1 本章引论
  • 4.2 容错算法的平均执行时间评价模型
  • 4.2.1 模型参数及假设
  • 4.2.2 容错基本方法的平均执行时间模型
  • 4.2.3 自适应容错机制的平均执行时间模型
  • 4.2.4 模型的验证
  • 第5章 资源消耗
  • 5.1 本章引论
  • 5.2 作业的资源消耗
  • 5.3 容错基本方法的资源消耗模型
  • 5.4 自适应容错机制的资源消耗模型
  • 第6章 实验
  • 6.1 本章引论
  • 6.2 模拟实验
  • 6.2.1 模拟方法
  • 6.2.2 平均执行时间的模拟
  • 6.2.3 资源消耗的模拟
  • 6.3 真实网格环境下的实验
  • 6.3.1 实验环境
  • 6.3.2 实验结果
  • 6.3.3 实验总结
  • 第7章 总结及进一步工作
  • 7.1 论文总结
  • 7.2 进一步工作
  • 参考文献
  • 致谢
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    标签:;  ;  ;  

    网格容错关键技术的研究
    下载Doc文档

    猜你喜欢