Print

ETL的优化设计

论文摘要

数字化网络系统作为一种信息共享平台被应用到信息化建设中,数据信息的日益复杂和管理对象的繁多也越来越成为信息管理所面临的一个问题,ETL(Extraction-Transformation-Loading)的引入为共享平台提供了一个统一的接口,方便了对数据的操作和管理。一个良好的ETL处理过程可以很好的为数字化网络系统服务,目前的大部分ETL技术工具在处理少量数据时效率比较好,但是在处理海量数据的时候,经常会花费大量时间,在整个数据处理过程中还时常发生假死现象,因此在效率和可靠性方面还有待提高。本文主要针对ETL的设计进行了分析和对该处理过程的优化进行了研究。通过对ETL操作的各个过程进行了分析,并做出了效率提高,尤其是在数据转换这个关键阶段加入了临时数据库作为缓冲池,并且对数据进行批量提取,减少了外存向内存写入数据的时间开销,在多花费少量空间的情况下提高了效率,节约了大量的时间。经过大量数据的测试比较,优化的ETL流程方案在时间花费比传统的ETL操作过程减少了50%以上,效率得到了很好的提高。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 ETL 在国内外的发展情况
  • 1.2 当今ETL 面临的挑战
  • 1.3 论文讨论的主要问题
  • 1.4 论文的内容安排
  • 第二章 ETL 相关知识背景
  • 2.1 数据仓库
  • 2.1.1 数据仓库的特点构成
  • 2.1.2 数据仓库的架构
  • 2.2 商业智能(BI)
  • 2.2.1 商务智能方案的技术结构
  • 2.2.2 商务智能的功能
  • 2.3 ETL 知识介绍
  • 2.3.1 数据抽取
  • 2.3.2 数据转换
  • 2.3.3 数据加载
  • 2.3.4 ETL 过程的关键环节
  • 2.4 ETL 在商务智能(BI)和数据仓库中的重要地位
  • 2.5 小结
  • 第三章 ETL 工作流方案设计
  • 3.1 ETL 工作流的优点
  • 3.2 传统的ETL 工作流程
  • 3.3 ETL 工作流程优化方案
  • 3.4 小结
  • 第四章 ETL 工作流程细节设计优化和实现
  • 4.1 数据抽取时的SQL 优化
  • 4.2 数据一致性处理
  • 4.3 增量抽取
  • 4.4 内存数据库
  • 4.4.1 内存数据库的概念
  • 4.4.2 内存数据库的应用场合
  • 4.4.3 常用的内存数据库
  • 4.4.4 数据转换中引入内存数据库
  • 4.5 数据清洗
  • 4.6 数据同步
  • 4.7 ETL 元数据管理
  • 4.8 ETL 多线程执行模式的设计
  • 4.9 小结
  • 第五章 ETL 数据仓库设计和实现
  • 5.1 ETL 数据仓库设计原则
  • 5.2 ETL 数据仓库实现步骤
  • 5.2.1 数据仓库自身设计
  • 5.2.2 ETL 过程设计与实现
  • 5.3 小结
  • 第六章 ETL 效率性能分析
  • 6.1 测试目的
  • 6.2 测试环境
  • 6.3 测试方法
  • 6.3.1 测试数据
  • 6.3.2 测试方案
  • 6.4 测试过程及数据结果
  • 6.5 整体性能分析
  • 6.6 小结
  • 第七章 总结
  • 致谢
  • 参考文献
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/2eddeee4ca752331f1cc8371.html