论文摘要
随着计算技术和互联网技术的进一步发展,网格已经从单纯的高性能计算系统发展成为在异构、动态的分布式环境下进行资源的共享和协同计算的基础设施。然而,正是由于网格的异构性、动态性等特点,给网格容错带来了很大的挑战。本文在基本的四种容错方法出错重试(retry),替代资源(alternateresource),检查点(checkpoint)和作业复制(replication)基础上,提出了一种新的自适应的容错方法,并在CGSP(中国教育科研网格公共支撑平台)中实现。通过数学建模,模拟实验和在真实环境中的实验,我们的方法在各方面都取得了很好的表现。本文的主要工作和贡献有:●提出了网格作业级别的自适应容错机制,该机制在作业平均执行时间和系统资源消耗方面比已有的网格容错机制都好。●对本文提出的自适应容错机制通过概率统计的方法,以作业平均执行时间进行建模,通过模拟分析,该模型能够很好的反映该方法。●提出了资源消耗的概念。以往的容错机制只关注作业平均执行时间,然而在分布式系统中,尤其是网格系统中,资源消耗也是衡量一个容错机制合理与否的重要评价指标。●针对本文提出的资源消耗的评价指标,对传统的四种容错方法以及本文提出的自适应容错方法进行了数学建模。●对本文中所有提到的容错机制都进行了模拟,并和自适应容错机制进行了比较,比较结果显示我们的自适应容错机制在作业平均执行时间和资源消耗上都表现突出。●在一个真实的生物信息学网格系统上进行了实验,实验结果再次证实我们的自适应容错机制的优越性。
论文目录
摘要Abstract第1章 引言1.1 网格计算概述1.1.1 网格的概念1.1.2 网格简单发展历史回顾1.1.3 网格计算中的关键问题1.2 网格作业的容错1.2.1 网格中的错误1.2.2 网格容错的必要性1.2.3 网格容错的困难和挑战1.3 本文研究的主要内容和主要贡献1.3.1 研究什么和不研究什么1.3.2 各章内容简介1.3.3 本文的主要贡献第2章 相关工作2.1 容错的四个基本方法2.1.1 出错重试(retry)2.1.2 替代资源(alternate resource)2.1.3 检查点(checkpoint)2.1.4 作业复制(replication)2.2 现有网格中间件的容错方法2.2.1 单方法的容错2.2.2 组合方法的容错2.2.3 可配置的容错方法2.3 中国教育科研网格公共支撑平台(CGSP)2.3.1 CGSP整体构架2.3.2 CGSP执行管理的体系结构第3章 作业级别的自适应容错机制3.1 本章引论3.2 网格容错的基本要求3.2.1 自适应的处理多种错误3.2.2 网格应用和错误处理的分离3.2.3 系统资源消耗小3.3 容错四个基本算法的优缺点3.4 作业级别的自适应容错机制第4章 自适应容错算法平均执行时间的评价模型4.1 本章引论4.2 容错算法的平均执行时间评价模型4.2.1 模型参数及假设4.2.2 容错基本方法的平均执行时间模型4.2.3 自适应容错机制的平均执行时间模型4.2.4 模型的验证第5章 资源消耗5.1 本章引论5.2 作业的资源消耗5.3 容错基本方法的资源消耗模型5.4 自适应容错机制的资源消耗模型第6章 实验6.1 本章引论6.2 模拟实验6.2.1 模拟方法6.2.2 平均执行时间的模拟6.2.3 资源消耗的模拟6.3 真实网格环境下的实验6.3.1 实验环境6.3.2 实验结果6.3.3 实验总结第7章 总结及进一步工作7.1 论文总结7.2 进一步工作参考文献致谢个人简历、在学期间发表的学术论文与研究成果
相关论文文献
标签:网格计算论文; 容错论文; 分布式系统论文;