论文摘要
数字化网络系统作为一种信息共享平台被应用到信息化建设中,数据信息的日益复杂和管理对象的繁多也越来越成为信息管理所面临的一个问题,ETL(Extraction-Transformation-Loading)的引入为共享平台提供了一个统一的接口,方便了对数据的操作和管理。一个良好的ETL处理过程可以很好的为数字化网络系统服务,目前的大部分ETL技术工具在处理少量数据时效率比较好,但是在处理海量数据的时候,经常会花费大量时间,在整个数据处理过程中还时常发生假死现象,因此在效率和可靠性方面还有待提高。本文主要针对ETL的设计进行了分析和对该处理过程的优化进行了研究。通过对ETL操作的各个过程进行了分析,并做出了效率提高,尤其是在数据转换这个关键阶段加入了临时数据库作为缓冲池,并且对数据进行批量提取,减少了外存向内存写入数据的时间开销,在多花费少量空间的情况下提高了效率,节约了大量的时间。经过大量数据的测试比较,优化的ETL流程方案在时间花费比传统的ETL操作过程减少了50%以上,效率得到了很好的提高。
论文目录
摘要ABSTRACT第一章 绪论1.1 ETL 在国内外的发展情况1.2 当今ETL 面临的挑战1.3 论文讨论的主要问题1.4 论文的内容安排第二章 ETL 相关知识背景2.1 数据仓库2.1.1 数据仓库的特点构成2.1.2 数据仓库的架构2.2 商业智能(BI)2.2.1 商务智能方案的技术结构2.2.2 商务智能的功能2.3 ETL 知识介绍2.3.1 数据抽取2.3.2 数据转换2.3.3 数据加载2.3.4 ETL 过程的关键环节2.4 ETL 在商务智能(BI)和数据仓库中的重要地位2.5 小结第三章 ETL 工作流方案设计3.1 ETL 工作流的优点3.2 传统的ETL 工作流程3.3 ETL 工作流程优化方案3.4 小结第四章 ETL 工作流程细节设计优化和实现4.1 数据抽取时的SQL 优化4.2 数据一致性处理4.3 增量抽取4.4 内存数据库4.4.1 内存数据库的概念4.4.2 内存数据库的应用场合4.4.3 常用的内存数据库4.4.4 数据转换中引入内存数据库4.5 数据清洗4.6 数据同步4.7 ETL 元数据管理4.8 ETL 多线程执行模式的设计4.9 小结第五章 ETL 数据仓库设计和实现5.1 ETL 数据仓库设计原则5.2 ETL 数据仓库实现步骤5.2.1 数据仓库自身设计5.2.2 ETL 过程设计与实现5.3 小结第六章 ETL 效率性能分析6.1 测试目的6.2 测试环境6.3 测试方法6.3.1 测试数据6.3.2 测试方案6.4 测试过程及数据结果6.5 整体性能分析6.6 小结第七章 总结致谢参考文献
相关论文文献
标签:数据集成论文; 共享数据库论文;