面向科学工作流的云数据布局方法研究

面向科学工作流的云数据布局方法研究

论文摘要

随着信息技术的发展和普及,数据密集型应用已被广泛应用于众多等领域,尤其是科学计算领域。这类应用所处理的数据量通常十分巨大,且应用数据集之间往往存在着关联关系。通过应用工作流技术,可以实现各种复杂计算任务的自动化执行,我们称之为科学工作流。部署和执行科学工作流应用,不仅对计算资源有较高要求,同时也需要大量的存储空间。当前科学工作流应用多被部署于分布式计算系统,因为这些系统能够为科学工作流提供所需的高性能计算资源和海量存储空间。云计算作为一种典型的分布式网络计算技术,能够以相对低廉的基础设施成本为科学工作流应用提供所需的计算和存储资源,为其提供了一种全新的部署和执行方式。在云计算环境下部署和执行科学工作流应用,一方面能够节约大量成本,另一方面也为在遍布Internet的科研人员间实现资源共享与合作研究提供了一个良好的契机。然而,科学工作流应用在利用云计算技术的过程中遇到了一些新的挑战,特别是在数据布局(data placement)方面。云数据布局,即指在多数据中心的云存储环境下为应用数据文件选择存放位置的过程,其结果被称为云数据布局方案。科学工作流应用的部署和执行过程,是云计算环境下多个分布式数据中心协作的过程,该过程中的跨数据中心数据移动难以避免。由此带来的挑战主要体现在三个方面:1)一些应用数据集由于所有权等原因不允许被移动而只能被置于固定的位置;2)相对于巨大的应用数据量而言,数据中心间的网络传输带宽有限,而频繁的跨数据中心数据传输意味着不可忽视的时间开销;3)在隶属于不同服务提供商的云数据中心间进行数据传输往往将导致运行成本的增加。因此,如何通过对海量应用数据进行合理布局,从而降低应用执行过程中的跨数据中心数据传输,成为了在云计算环境下部署执行科学工作流应用的关键问题。针对云计算环境下科学工作流的数据布局问题,本文首先对问题进行了描述、分析和建模,并基于此将科学工作流应用分为两类:一类是相对稳定型科学工作流应用,其特点是流程步骤和应用数据的变更相对较少:一类是相对动态型科学工作流应用,其特点是流程步骤和应用数据的变更相对频繁。之后,本文针对上述两类科学工作流应用分别提出了两种不同的数据布局策略。其中针对相对稳定型科学工作流应用,我们提出了基于遗传算法思想的全局数据布局策略:针对相对动态型科学工作流应用,我们提出了基于贪婪算法的动态数据布局策略。前者侧重于数据布局的全局性和稳定性,以全局最优为目标来进行数据布局:后者则侧重于数据布局的动态性和灵活性,旨在应对流程步骤和生成数据的不确定性。上述两种数据布局策略,能够在保证数据布局有效性的基础上减少应用执行过程中的跨数据中心数据传输次数和由此导致的时间开销,从而降低开销并节约成本。本文通过建立云计算模式下分布式数据中心的模拟环境,对上述两种数据布局策略与其它同类数据布局策略从数据布局方案所对应的跨数据中心数据传输次数、数据传输时间开销等多个角度进行了对比分析。实验结果显示,与同类数据布局策略相比,本文所提出的两种数据布局策略具有较好的综合性能,其中在降低科学工作流应用执行过程中的跨数据中心数据传输时间开销方面表现尤为突出。本文的研究成果不仅对提升云计算环境下科学工作流的执行效率具有重要意义,同时也适于云计算环境下的其它数据密集型应用,具有较高的实用价值与广阔的应用前景。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 本文工作
  • 1.3 本文组织结构
  • 第2章 相关研究
  • 2.1 传统分布式环境下的数据布局管理
  • 2.2 云计算环境下的数据布局管理
  • 2.3 本章小结
  • 第3章 面向科学工作流的云数据布局问题建模
  • 3.1 云计算存储环境建模
  • 3.2 科学工作流应用建模
  • 3.3 数据传输时间开销建模
  • 3.3.1 单次数据传输时间开销建模
  • 3.3.2 全程数据传输时间开销建模
  • 3.4 本章小结
  • 第4章 基于遗传算法的全局数据布局策略
  • 4.1 基于遗传算法的布局方案全局初选
  • 4.1.1 数据布局方案编码规则
  • 4.1.2 数据布局方案有效性保证
  • 4.1.3 数据布局方案的评价算法
  • 4.1.4 数据布局方案全局初选算法
  • 4.2 基于数据集依赖的布局方案过滤
  • 4.3 基于负载均衡度的布局方案终选
  • 4.4 本章小结
  • 第5章 基于贪婪算法的动态数据布局策略
  • 5.1 相关概念的定义
  • 5.2 动态数据布局策略:应用构建阶段布局
  • 5.2.1 应用构建阶段数据布局策略思想
  • 5.2.2 应用构建阶段数据布局算法实现
  • 5.3 动态数据布局策略:应用执行阶段布局
  • 5.3.1 应用执行阶段数据布局策略思想
  • 5.3.2 应用执行阶段数据布局算法实现
  • 5.4 本章小结
  • 第6章 模拟实验及对比分析
  • 6.1 实验环境与实验设计
  • 6.2 全局数据布局策略实验与分析
  • 6.3 动态数据布局策略实验与分析
  • 6.4 全局策略与动态策略的全面对比
  • 6.4.1 数据布局方案性能对比
  • 6.4.2 数据中心负载均衡度对比
  • 6.4.3 存储资源利用状况对比
  • 6.5 本章小结
  • 第7章 总结与展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    • [1].一种任务合并机制下的云工作流多阶段调度方法[J]. 计算机应用与软件 2019(12)
    • [2].基于多色集合理论的医院异常工作流处理建模[J]. 计算机系统应用 2020(07)
    • [3].基于工作流的专业认证系统研究与设计[J]. 云南师范大学学报(自然科学版) 2020(05)
    • [4].云环境下基于阶段划分的数据密集型工作流调度[J]. 南京邮电大学学报(自然科学版) 2020(04)
    • [5].云计算中一种高效的工作流调度方法[J]. 计算机应用与软件 2020(10)
    • [6].工作流技术在学生工作管理信息系统的应用[J]. 电脑知识与技术 2020(23)
    • [7].工作流技术的学生评语生成系统的设计与实现研究[J]. 电脑知识与技术 2019(17)
    • [8].基于工作流的质量管理信息系统的设计与实现[J]. 中国高新区 2018(10)
    • [9].基于云环境的科学工作流均衡调度算法[J]. 实验室研究与探索 2018(05)
    • [10].基于矩阵的工作流逻辑网模型的化简及验证[J]. 计算机科学 2018(07)
    • [11].九种智能算法在科学工作流调度中的应用比较[J]. 周口师范学院学报 2018(05)
    • [12].一种云环境下的科学工作流均衡调度算法[J]. 微电子学与计算机 2018(10)
    • [13].基于行为特征的语义工作流修正算法[J]. 软件学报 2018(11)
    • [14].电力调度分布式工作流设计与实现[J]. 山东工业技术 2017(01)
    • [15].基于工作流的移动网建设管理平台设计与实现[J]. 电子科技 2016(12)
    • [16].共享有限资源的有期限约束多工作流吞吐量最大化调度方法[J]. 北京工业大学学报 2017(03)
    • [17].基于资源分组的多约束云工作流调度算法[J]. 电子科技大学学报 2017(03)
    • [18].论电力调度分布式工作流的设计与实现[J]. 科技视界 2017(08)
    • [19].基于工作流技术的电力生产管理系统的设计与实现策略[J]. 中国新技术新产品 2017(19)
    • [20].电力调度分布式工作流的设计与实现[J]. 农村经济与科技 2017(16)
    • [21].基于行为和结构特征的相似语义工作流检索[J]. 计算机研究与发展 2017(09)
    • [22].电力调度分布式工作流设计与实现[J]. 化工管理 2015(33)
    • [23].面向企业应用的工作流技术探究[J]. 企业技术开发 2015(32)
    • [24].隐私与成本感知的云工作流调度方法[J]. 计算机集成制造系统 2016(02)
    • [25].工作流技术与数字化校园[J]. 玉林师范学院学报 2015(05)
    • [26].支持过程改进的工作流仿真及优化技术研究[J]. 赤峰学院学报(自然科学版) 2016(16)
    • [27].电力调度分布式工作流设计和实践[J]. 中外企业家 2014(32)
    • [28].基于语义的电力系统工作流智能推理框架[J]. 南华大学学报(社会科学版) 2015(01)
    • [29].浅谈税务工作流管理的系统设计[J]. 计算机光盘软件与应用 2014(23)
    • [30].面向服务工作流技术在合同审核中的应用研究[J]. 世界科技研究与发展 2009(04)

    标签:;  ;  ;  ;  

    面向科学工作流的云数据布局方法研究
    下载Doc文档

    猜你喜欢