基于ETL的数据集成过程模型

基于ETL的数据集成过程模型

论文摘要

随着全球化的发展,各行各业都将业务拓展到全球,全球信息化成为未来的发展趋势。为了满足当地的各项政策法律以及新市场的要求等,需要有新的信息系统提供支持。这就形成了各个信息系统之间的交互鸿沟,即所谓的“信息孤岛”。针对“信息孤岛”,有很多种方式让信息系统之间能够交互,与之相比,数据集成则是更棘手的问题。由于各信息系统是异构的分布式数据源系统,因此数据集成需要将分布在各地异构数据源的各种类型数据如类似于文本文件的非结构化数据,XML等半结构化数据,以及数据库的结构化数据等转换成统一的数据视图,供下游系统统一使用。目前这种数据集成需求随着业务全球化的发展而不断加强。然而,当今数据集成仍面临若干关键问题需要解决:1)如何从异构的分布式信息系统中读取数据,并且高效地将异构数据转换为统一的数据视图;2)如何进行数据清洗完成数据在业务层上的转换;3)如何拓展数据集成的驱动模式提高实时性。针对这种分布式异构数据源的集成需求,本文提出了一个基于ETL(Extract-Transform-Load)即数据抽取、转换和加载的集成过程模型。本过程模型采用数据提供者读取数据,通过元数据映射方式完成异构数据向统一数据视图的转换;针对转换之后的数据,通过简单规则引擎执行对客户系统定制的业务规则来完成数据在业务层面上的转换。同时将传统的数据集成的驱动模式——任务调度,拓展为同时支持任务调度和按需实时性事件的双驱动模式。本文在解决上述问题的过程中同时考虑了数据集成的性能,本过程模型通过增量式的数据集成和在数据库端运行的基于存储过程的规则引擎减少了数据传输的网络开销,提高了数据集成的性能。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.1.1 课题研究现状
  • 1.1.2 本论文的研究贡献
  • 1.2 本章小结
  • 第2章 数据集成技术
  • 2.1 数据集成中系统交互技术
  • 2.1.1 文件方式交互
  • 2.1.2 中间件方式交互
  • 2.1.3 数据库方式交互
  • 2.2 系统的交互协议
  • 2.2.1 SWIFT
  • 2.2.2 XML
  • 2.3 数据集成中的传统驱动模式
  • 2.3.1 任务调度技术
  • 2.3.2 Quartz
  • 2.4 点到点集成交互优缺点
  • 2.5 ETL技术综述
  • 2.6 交互协议的统一
  • 2.7 本章小结
  • 第3章 异构数据源数据的抽取和转换
  • 3.1 传统异构数据集成抽取和转换过程
  • 3.2 基于ETL过程模型的总体设计
  • 3.3 中的异构数据抽取
  • 3.3.1 数据提供者的具体设计
  • 3.3.2 数据提供者的具体实现
  • 3.3.3 数据提供者的效果分析
  • 3.4 过程模型中的异构数据转换
  • 3.4.1 元数据映射
  • 3.4.2 元数据映射设计与实现
  • 3.4.3 元数据映射的效果分析
  • 3.5 本章总结
  • 第4章 可扩展的数据清洗转换方式
  • 4.1 传统的数据清洗方式
  • 4.2 基于简单规则引擎的数据清洗
  • 4.2.1 基于简单规则引擎的设计
  • 4.2.2 基于简单规则引擎的实现
  • 4.3 简单规则引擎的效果分析
  • 4.4 本章小结
  • 第5章 过程模型中的驱动模型
  • 5.1 传统的驱动模型
  • 5.2 过程模型中驱动模型的原理
  • 5.3 驱动模型的设计与实现
  • 5.3.1 事件的产生
  • 5.3.2 事件的处理
  • 5.4 驱动模型的效果分析
  • 5.5 本章小结
  • 第6章 总结与展望
  • 参考文献
  • 攻读硕士学位期间主要的研究成果
  • 致谢
  • 相关论文文献

    • [1].命名实体识别在数字人文中的应用——基于ETL的实现[J]. 图书馆论坛 2020(05)
    • [2].ETL多数据流并行抽取系统的设计与实现[J]. 广东技术师范学院学报 2015(08)
    • [3].ETL技术在餐饮业油水分离器监测系统中的应用[J]. 数字技术与应用 2016(04)
    • [4].充分运用ETL工具,构建完整的数据仓库体系结构[J]. 科技创新与应用 2015(17)
    • [5].基于ETL技术的医院绩效管理系统设计与实现[J]. 中国数字医学 2015(11)
    • [6].基于云计算的数据仓库ETL系统研究与优化[J]. 湘南学院学报 2014(02)
    • [7].ETL多数据流并行抽取中监控的研究与设计[J]. 微计算机信息 2011(03)
    • [8].数据仓库中ETL过程及技巧浅析[J]. 中国科技信息 2009(02)
    • [9].一种面向数据仓库的ETL多层实现策略[J]. 福建电脑 2009(12)
    • [10].浅谈数据仓库中ETL的重要性[J]. 科技信息(科学教研) 2008(18)
    • [11].点击流数据仓库中的ETL技术[J]. 科技信息(科学教研) 2008(20)
    • [12].ETL技术在复杂数据迁移项目中的应用[J]. 西安工程大学学报 2008(04)
    • [13].数据仓库维度建模与ETL过程[J]. 辽宁高职学报 2008(10)
    • [14].基于子模式的关系数据到图数据ETL方法研究[J]. 计算机工程与应用 2017(12)
    • [15].汽车行业数据仓库应用敏捷型ETL过程的研究[J]. 现代计算机(专业版) 2015(34)
    • [16].基于自主式ETL的煤炭企业统一数据交换平台的设计与实现[J]. 中国煤炭 2014(08)
    • [17].基于ETL等技术的建设用地三级联动技术研究[J]. 国土资源信息化 2013(02)
    • [18].数据映射技术在ETL过程中的应用[J]. 计算机系统应用 2012(07)
    • [19].数据仓库与ETL技术在超市中的应用研究[J]. 电脑知识与技术 2011(18)
    • [20].数控机床传感器数据分析中ETL系统改进[J]. 计算机系统应用 2017(09)
    • [21].基于ETL技术的数据交换平台在电子政务领域中的应用[J]. 电脑知识与技术 2016(21)
    • [22].ETL技术在运营商数据仓库中的应用[J]. 电信快报 2015(11)
    • [23].教学管理数据仓库中ETL的实现[J]. 科技创新导报 2011(16)
    • [24].基于数据仓库的一种通用ETL工具的设计与实现[J]. 电脑知识与技术 2008(26)
    • [25].高校数据仓库多层架构设计与ETL实现[J]. 上海工程技术大学学报 2015(02)
    • [26].人保财险公司数据仓库数据ETL的设计[J]. 计算机光盘软件与应用 2014(12)
    • [27].一种人口信息共享的ETL设计方案[J]. 西南民族大学学报(自然科学版) 2011(05)
    • [28].点击流数据仓库中ETL子系统的应用研究[J]. 硅谷 2009(07)
    • [29].ETL在金融信贷风险数据仓库中的应用[J]. 中国科技信息 2009(10)
    • [30].数据仓库中ETL技术的研究与改进[J]. 甘肃科技 2012(19)

    标签:;  ;  ;  ;  ;  

    基于ETL的数据集成过程模型
    下载Doc文档

    猜你喜欢