基于云计算的科学工作流数据存储策略研究

基于云计算的科学工作流数据存储策略研究

论文摘要

在天气预测、载人航天、基因生物计算、高能物理数据分析、生命科学计算、地震预测等复杂科研领域,问题求解越来越需要不同领域、不同学科、不同地域的科学家紧密合作才能得以有效解决,而科学工作流为这种异地科学家进行科研协作提供了有效手段。科学工作流被用来自动化科学任务的编排、执行、监控、以及追踪。传统上,科学工作流被部署在超级计算机、分布式集群系统以及网格系统等复杂且昂贵的分布式计算机系统上。随着问题求解规模和复杂性递增,一个大型复杂科学工作流通常包含成千上万个科学计算任务,这些任务本身不但涉及大规模的数据处理,任务间往往蕴含着海量的数据传输,因此,如何确保科学工作流在分布式计算环境中的高效执行一直是科学计算领域和分布计算领域共同面临的热点和难点问题。近来,随着分布计算技术的不断发展,在并行计算和网格计算等计算模式之后,又一种新的计算模型---云计算模型得到了计算机工业界和学术界的广泛关注。云计算技术是一种共享基础架构的方法,它通过虚拟技术将分布在不同地理位置的计算资源和存储资源虚拟成一个资源池,基于这种方式,云计算中心可以为科学工作流的执行提供灵活可伸缩、动态可扩展的计算资源和海量存储资源,而且成本低廉。尽管云计算技术高效、灵活、可定制的特点为解决科学工作流运行过程中遇到的难题提供了一种新的思路,但是云环境中跨数据中心科学工作流的高效执行仍然面临数据交互量大的问题。针对该问题,本文通过研究高效的数据放置和存储策略来有效减少任务间数据传输量,进而达到优化科学工作流执行的目的,具体工作如下:(1)、提出了一种改进的基于聚类的数据存储策略方法。传统基于聚类的数据放置策略方法尽管可以有效减少跨数据中心之间的数据移动次数,但是该方法并没有考虑科学工作流中数据集大小,一旦移动次数较少同时所移动的数据规模较大,总的数据传输开销不一定降低。针对这些不足,本文在原有方法基础上增加了对数据集大小的考虑,并从数据相关、任务调度、中间数据集放置三个方面对传统算法进行了优化和改进,实验表明,改进后的算法可以有效减少数据的总移动开销。(2)、提出了一种基于数据相关的两阶段高效数据放置和任务调度方法。本文在上述工作基础上,同时建立了一种基于数据相关的两阶段高效数据放置策略和任务调度策略:即在工作流建立阶段根据数据依赖关系图把关系紧密型数据集尽可能放置到同一数据中心;而后任务调度策略在运行阶段将任务调度到数据依赖最大的数据中心执行,并将新产生数据集放置到相关度最高的数据中心。实验表明,该方法能有效减少跨数据中心科学工作流执行时的数据传输量,从而提升了科学工作流执行效率以及减少了云资源租赁费用。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.1.1 课题研究背景
  • 1.1.2 研究的目的和意义
  • 1.2 课题相关研究现状
  • 1.2.1 国内外研究现状及分析
  • 1.2.2 未来发展趋势分析
  • 1.3 研究内容和创新点
  • 1.4 论文结构
  • 1.5 本章小结
  • 第二章 云计算和科学工作流相关理论
  • 2.1 云计算平台
  • 2.1.1 云计算概念及其特点
  • 2.1.2 云计算系统的体系结构
  • 2.1.3 云计算及相关计算的对比
  • 2.1.4 几种云计算平台简介
  • 2.2 科学工作流
  • 2.2.1 科学工作流概念
  • 2.2.2 几个科学工作流实例
  • 2.3 基于云计算环境执行科学工作流的优势与不足
  • 2.3.1 云计算环境下执行科学工作流的优势
  • 2.3.2 云计算环境下执行科学工作流的不足
  • 2.4 本章小结
  • 第三章 科学工作流云计算实验平台的建立
  • 3.1 Nimbus 开源云计算平台
  • 3.1.1 Nimbus 简介
  • 3.1.2 Nimbus 体系结构
  • 3.1.3 Nimbus 执行流程
  • 3.2 SwinDeW-C 科学工作流管理系统
  • 3.2.1 SwinDeW-C 简介
  • 3.2.2 SwinDeW-C 体系结构
  • 3.2.3 单个节点的组成结构
  • 3.2.4 SwinDeW-C 的数据管理部件
  • 3.3 搭建Nim-SwinDeW 实验平台
  • 3.3.1 Nim-SwinDeW 简介
  • 3.3.2 Nim-SwinDeW 体系结构
  • 3.3.3 Nim-SwinDeW 执行流程
  • 3.3.4 部署Nim-SwinDeW 实验平台
  • 3.4 本章小结
  • 第四章 云环境下科学工作流基于聚类的数据存储策略
  • 4.1 基于聚类的存储策略模型
  • 4.1.1 符号定义
  • 4.1.2 科学工作流建立阶段数据放置策略
  • 4.1.3 运行阶段数据放置策略
  • 4.2 基于聚类的存储策略的改进
  • 4.2.1 问题描述
  • 4.2.2 改进后的聚类数据存储策略
  • 4.3 实验测试与结果分析
  • 4.3.1 实验环境
  • 4.3.2 测试结果
  • 4.3.3 实验结果分析
  • 4.4 本章小结
  • 第五章 云环境下科学工作流基于数据相关的两阶段数据存储策略
  • 5.1 问题提出
  • 5.1.1 相关模型和符号定义
  • 5.1.2 实例分析和问题说明
  • 5.2 基于数据相关的数据放置策略
  • 5.2.1 建立阶段数据放置策略
  • 5.2.2 运行阶段数据放置策略
  • 5.3 实验测试
  • 5.3.1 实验环境和相关设置
  • 5.3.2 数据集数量变化对结果的影响
  • 5.3.3 数据集大小取值范围对结果的影响
  • 5.3.4 固定数据集比例对结果的影响
  • 5.3.5 数据中心数量变化对结果的影响
  • 5.4 结果分析
  • 5.5 本章小结
  • 第六章 总结和展望
  • 6.1 论文总结
  • 6.2 下一步的工作方向
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 相关论文文献

    • [1].一种任务合并机制下的云工作流多阶段调度方法[J]. 计算机应用与软件 2019(12)
    • [2].基于多色集合理论的医院异常工作流处理建模[J]. 计算机系统应用 2020(07)
    • [3].基于工作流的专业认证系统研究与设计[J]. 云南师范大学学报(自然科学版) 2020(05)
    • [4].云环境下基于阶段划分的数据密集型工作流调度[J]. 南京邮电大学学报(自然科学版) 2020(04)
    • [5].云计算中一种高效的工作流调度方法[J]. 计算机应用与软件 2020(10)
    • [6].工作流技术在学生工作管理信息系统的应用[J]. 电脑知识与技术 2020(23)
    • [7].工作流技术的学生评语生成系统的设计与实现研究[J]. 电脑知识与技术 2019(17)
    • [8].基于工作流的质量管理信息系统的设计与实现[J]. 中国高新区 2018(10)
    • [9].基于云环境的科学工作流均衡调度算法[J]. 实验室研究与探索 2018(05)
    • [10].基于矩阵的工作流逻辑网模型的化简及验证[J]. 计算机科学 2018(07)
    • [11].九种智能算法在科学工作流调度中的应用比较[J]. 周口师范学院学报 2018(05)
    • [12].一种云环境下的科学工作流均衡调度算法[J]. 微电子学与计算机 2018(10)
    • [13].基于行为特征的语义工作流修正算法[J]. 软件学报 2018(11)
    • [14].电力调度分布式工作流设计与实现[J]. 山东工业技术 2017(01)
    • [15].基于工作流的移动网建设管理平台设计与实现[J]. 电子科技 2016(12)
    • [16].共享有限资源的有期限约束多工作流吞吐量最大化调度方法[J]. 北京工业大学学报 2017(03)
    • [17].基于资源分组的多约束云工作流调度算法[J]. 电子科技大学学报 2017(03)
    • [18].论电力调度分布式工作流的设计与实现[J]. 科技视界 2017(08)
    • [19].基于工作流技术的电力生产管理系统的设计与实现策略[J]. 中国新技术新产品 2017(19)
    • [20].电力调度分布式工作流的设计与实现[J]. 农村经济与科技 2017(16)
    • [21].基于行为和结构特征的相似语义工作流检索[J]. 计算机研究与发展 2017(09)
    • [22].电力调度分布式工作流设计与实现[J]. 化工管理 2015(33)
    • [23].面向企业应用的工作流技术探究[J]. 企业技术开发 2015(32)
    • [24].隐私与成本感知的云工作流调度方法[J]. 计算机集成制造系统 2016(02)
    • [25].工作流技术与数字化校园[J]. 玉林师范学院学报 2015(05)
    • [26].支持过程改进的工作流仿真及优化技术研究[J]. 赤峰学院学报(自然科学版) 2016(16)
    • [27].电力调度分布式工作流设计和实践[J]. 中外企业家 2014(32)
    • [28].基于语义的电力系统工作流智能推理框架[J]. 南华大学学报(社会科学版) 2015(01)
    • [29].浅谈税务工作流管理的系统设计[J]. 计算机光盘软件与应用 2014(23)
    • [30].面向服务工作流技术在合同审核中的应用研究[J]. 世界科技研究与发展 2009(04)

    标签:;  ;  ;  ;  

    基于云计算的科学工作流数据存储策略研究
    下载Doc文档

    猜你喜欢