基于任务调度的集群式ETL模型构建研究

基于任务调度的集群式ETL模型构建研究

论文摘要

近些年,企业规模和业务不断向多个地区扩展,企业数据环境也因此变得更加复杂。ETL,即数据抽取、转换和加载过程,是构建数据仓库的重要环节,所占工作量很大。如何提高ETL的处理能力来适应复杂的数据环境,渐渐成为了学者们的研究热点,已取得了一定的成果。但是这些ETL模型理论考虑的数据环境因素较简单,难以胜任分布式环境下的多处理器ETL工作环境。本文从ETL工具模型设计和任务调度策略入手解决了分布式数据环境下的部分ETL数据操作问题和执行效率问题。本文的主要工作和创新点可以归为以下几个方面:1.从分布式ETL的整个执行过程角度出发,文章提出了一种改进的分布式ETL模型——基于任务调度的集群式ETL任务调度模型,并对其进行了实现。此模型分为工作流生成模块和任务调度模块。任务调度模块的引入弥补了以往理论只重视工作流生成,而忽视工作流执行的局限性。处理器集群式管理,在一定程度上提高了系统的自治性,降低了数据源和网络间的差异性。2.基于任务调度的集群式ETL模型加入了对ETL处理器的管理功能。功能的实现增强了系统运行的稳定性和可靠性,这是在以往的ETL模型理论中所忽视的问题。3.围绕着处理器异构性问题,我们从两个方面进行解决,即硬件配置异构性问题和软件异构性问题。对于硬件异构性,我们通过利用异构集群ETL负载均衡算法平衡集群内部处理器的任务执行,减少集群异构性对ETL工作执行的影响,充分利用了处理器资源。采用Web服务组合技术使ETL执行与处理器平台无关,这样就解决了处理器软件平台的异构性问题。4.本文采用启发式算法研究分布式ETL下的任务调度优化问题。针对分布式ETL任务特点,我们将离散型粒子算法应用到分布式ETL工具中。实验证明该算法的应用具有一定的优势和可行性。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 1 绪论
  • 1.1 研究背景及意义
  • 1.2 研究现状
  • 1.3 研究内容及组织结构
  • 2 相关理论与技术
  • 2.1 分布式数据仓库技术
  • 2.1.1 分布式数据仓库的相关概念
  • 2.1.2 分布式数据仓库分类
  • 2.2 分布式系统中的集群技术
  • 2.2.1 集群系统概念
  • 2.2.2 集群系统特点
  • 2.2.3 集群系统分类
  • 2.2.4 集群系统的设计因素
  • 2.2.5 集群系统结构
  • 2.3 本章小结
  • 3 基于任务调度的集群式 ETL 模型设计
  • 3.1 集群式 ETL 系统技术
  • 3.1.1 ETL 系统
  • 3.1.2 分布式 ETL 系统
  • 3.1.3 集群 ETL 系统
  • 3.2 集群式 ETL 任务调度模型
  • 3.3 基于任务调度的集群式 ETL 逻辑结构
  • 3.4 基于任务调度的集群式 ETL 框架设计
  • 3.4.1 工作流生成模块
  • 3.4.2 任务调度模块
  • 3.4.3 执行 Agent 组
  • 3.5 本章小结
  • 4 基于任务调度的集群式 ETL 模型实现
  • 4.1 工作流生成模块工作流程
  • 4.2 任务调度模块工作流程
  • 4.3 执行 Agent 的工作方式
  • 4.4 ETL 处理器管理
  • 4.4.1 AUML 时序图
  • 4.4.2 ETL 处理器日常维护功能
  • 4.4.3 ETL 处理器实时监控
  • 4.5 异构集群 ETL 负载均衡算法
  • 4.5.1 异构集群负载均衡算法
  • 4.5.2 异构集群 ETL 负载均衡算法描述
  • 4.5.3 异构集群 ETL 负载均衡算法实现步骤
  • 4.6 实验分析
  • 4.7 本章小结
  • 5 分布式 ETL 多任务调度策略
  • 5.1 问题的引入
  • 5.2 基于置换型 DPSO 算法的分布式 ETL 多任务调度策略
  • 5.2.1 粒子群算法
  • 5.2.2 分布式 ETL 多任务调度模型
  • 5.2.3 分布式 ETL 多任务调度模型中的约束条件
  • 5.2.4 分布式 ETL 多任务调度模型目标函数
  • 5.2.5 分布式 ETL 多任务调度中的 DPSO 编码设计
  • 5.2.6 分布式 ETL 多任务调度中的 DPSO 进化方程
  • 5.3 调度优化策略求解过程及伪代码实现
  • 5.3.1 调度优化策略求解过程
  • 5.3.2 调度优化策略伪代码实现
  • 5.3.3 实验分析
  • 5.4 本章小结
  • 6 总结与展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间取得的科研成果
  • 相关论文文献

    • [1].命名实体识别在数字人文中的应用——基于ETL的实现[J]. 图书馆论坛 2020(05)
    • [2].ETL多数据流并行抽取系统的设计与实现[J]. 广东技术师范学院学报 2015(08)
    • [3].ETL技术在餐饮业油水分离器监测系统中的应用[J]. 数字技术与应用 2016(04)
    • [4].充分运用ETL工具,构建完整的数据仓库体系结构[J]. 科技创新与应用 2015(17)
    • [5].基于ETL技术的医院绩效管理系统设计与实现[J]. 中国数字医学 2015(11)
    • [6].基于云计算的数据仓库ETL系统研究与优化[J]. 湘南学院学报 2014(02)
    • [7].ETL多数据流并行抽取中监控的研究与设计[J]. 微计算机信息 2011(03)
    • [8].数据仓库中ETL过程及技巧浅析[J]. 中国科技信息 2009(02)
    • [9].一种面向数据仓库的ETL多层实现策略[J]. 福建电脑 2009(12)
    • [10].浅谈数据仓库中ETL的重要性[J]. 科技信息(科学教研) 2008(18)
    • [11].点击流数据仓库中的ETL技术[J]. 科技信息(科学教研) 2008(20)
    • [12].ETL技术在复杂数据迁移项目中的应用[J]. 西安工程大学学报 2008(04)
    • [13].数据仓库维度建模与ETL过程[J]. 辽宁高职学报 2008(10)
    • [14].基于子模式的关系数据到图数据ETL方法研究[J]. 计算机工程与应用 2017(12)
    • [15].汽车行业数据仓库应用敏捷型ETL过程的研究[J]. 现代计算机(专业版) 2015(34)
    • [16].基于自主式ETL的煤炭企业统一数据交换平台的设计与实现[J]. 中国煤炭 2014(08)
    • [17].基于ETL等技术的建设用地三级联动技术研究[J]. 国土资源信息化 2013(02)
    • [18].数据映射技术在ETL过程中的应用[J]. 计算机系统应用 2012(07)
    • [19].数据仓库与ETL技术在超市中的应用研究[J]. 电脑知识与技术 2011(18)
    • [20].数控机床传感器数据分析中ETL系统改进[J]. 计算机系统应用 2017(09)
    • [21].基于ETL技术的数据交换平台在电子政务领域中的应用[J]. 电脑知识与技术 2016(21)
    • [22].ETL技术在运营商数据仓库中的应用[J]. 电信快报 2015(11)
    • [23].教学管理数据仓库中ETL的实现[J]. 科技创新导报 2011(16)
    • [24].基于数据仓库的一种通用ETL工具的设计与实现[J]. 电脑知识与技术 2008(26)
    • [25].高校数据仓库多层架构设计与ETL实现[J]. 上海工程技术大学学报 2015(02)
    • [26].人保财险公司数据仓库数据ETL的设计[J]. 计算机光盘软件与应用 2014(12)
    • [27].一种人口信息共享的ETL设计方案[J]. 西南民族大学学报(自然科学版) 2011(05)
    • [28].点击流数据仓库中ETL子系统的应用研究[J]. 硅谷 2009(07)
    • [29].ETL在金融信贷风险数据仓库中的应用[J]. 中国科技信息 2009(10)
    • [30].数据仓库中ETL技术的研究与改进[J]. 甘肃科技 2012(19)

    标签:;  ;  ;  ;  ;  ;  

    基于任务调度的集群式ETL模型构建研究
    下载Doc文档

    猜你喜欢