基于ETL技术的电信业数据仓库质量控制模型的研究及应用

基于ETL技术的电信业数据仓库质量控制模型的研究及应用

论文摘要

数据仓库作为支持决策制定过程的重要手段,近几年来得到了迅速地发展,并已经成功地应用到制造业、零售业、金融服务、电信、运输等多个行业,正显示了其勃勃生机和强大的生命力。但是在数据仓库的建设过程中,一个被广泛认识但又常常被忽略的问题是数据仓库中的数据质量的控制。高质量的决策必然依赖于高质量的数据。为了避免得出错误的结论,数据的正确性是至关重要的,否则就会出现所谓的垃圾进,垃圾出(garbage in ,garbage out)的现象。如何检测并排除潜藏在进入数据仓库中数据的错误,以保证数据仓库中数据质量,进而为正确的决策打下坚实的基础,这是在建设数据仓库时必须重点考虑的核心问题,也是本文阐述的重点。本论文提出了基于统一工作流的ETL模型进行数据质量控制的方法,基于这种模型每个数据表的ETL流程都按照ETL的特性统一分为3个标准步骤,即数据抽取/变换(Extract/Convert)、数据转换(Transform)和数据加载(Load—ing),每个步骤需要记录完整的处理中间状态及完善的日志信息。并详细介绍了在ETL各个过程中采取的数据质量的控制方法。然后介绍了这种ETL模型在实际项目中的架构设计及应用。通过对这种ETL模型的扩展应用,设计出了基于ETL技术的数据仓库数据质量的稽核模块。通过该模块的应用可以将数据质量问题分类,建立相应的校验规则及阀值,并支持规则的动态增加。这样就使得数据仓库系统数据质量的控制上升到了一个更高的层次。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 概述
  • 1.1 课题背景
  • 1.1.1 项目背景
  • 1.1.2 课题背景
  • 1.2 数据仓库中的数据质量控制的国内外研究现状
  • 1.2.1 数据清洗
  • 1.2.2 利用ETL 工具
  • 1.3 研究内容及意义
  • 1.3.1 论文的主要内容
  • 1.3.2 研究的意义
  • 第二章 基于ETL 技术的数据仓库质量控制模型
  • 2.1 数据仓库中的数据质量分析
  • 2.1.1 数据质量对数据仓库的影响
  • 2.1.2 数据仓库中产生数据质量问题的原因
  • 2.1.3 源系统中数据质量的控制
  • 2.2 数据集成过程中基于ETL 技术的质量控制模型
  • 2.2.1 ETL 对于数据质量管理的意义
  • 2.2.2 基于统一工作流的ETL 模型
  • 2.2.3 基于ETL 技术的数据预处理和数据清洗策略
  • 2.3 基于ETL 工具的数据质量稽核机制
  • 2.3.1 数据质量稽核策略
  • 2.3.2 数据稽核机制的验证模型
  • 2.3.3 数据质量稽核机制的组织模型及管理流程
  • 第三章 基于ETL 技术的电信数据仓库质量控制的架构设计
  • 3.1 基于数据质量控制的ETL 架构设计
  • 3.1.1 数据仓库系统逻辑架构设计
  • 3.1.2 ETL 系统应用架构设计
  • 3.2 ETL 接口设计
  • 3.2.1 ETL 系统与源系统数据的接口设计
  • 3.2.2 Staging Area 接口描述
  • 3.3 数据集成过程中的数据质量控制设计
  • 3.3.1 ETL 过程中的数据预处理及清洗
  • 3.3.2 拒绝文件的处理
  • 第四章 上海电信数据质量稽核模块的实现与应用
  • 4.1 数据稽核角色定位
  • 4.2 数据稽核模块的功能设计
  • 4.3 数据稽核流程设计
  • 4.4 数据稽核模块的实现
  • 4.5 数据质量稽核模块中ETL 流程监控实现及应用
  • 4.6 应用结果讨论
  • 第五章 总结和展望
  • 5.1 本文总结
  • 5.2 进一步研究
  • 攻读硕士学位论文期间已发表或录用的论文
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].命名实体识别在数字人文中的应用——基于ETL的实现[J]. 图书馆论坛 2020(05)
    • [2].ETL多数据流并行抽取系统的设计与实现[J]. 广东技术师范学院学报 2015(08)
    • [3].ETL技术在餐饮业油水分离器监测系统中的应用[J]. 数字技术与应用 2016(04)
    • [4].充分运用ETL工具,构建完整的数据仓库体系结构[J]. 科技创新与应用 2015(17)
    • [5].基于ETL技术的医院绩效管理系统设计与实现[J]. 中国数字医学 2015(11)
    • [6].基于云计算的数据仓库ETL系统研究与优化[J]. 湘南学院学报 2014(02)
    • [7].ETL多数据流并行抽取中监控的研究与设计[J]. 微计算机信息 2011(03)
    • [8].数据仓库中ETL过程及技巧浅析[J]. 中国科技信息 2009(02)
    • [9].一种面向数据仓库的ETL多层实现策略[J]. 福建电脑 2009(12)
    • [10].浅谈数据仓库中ETL的重要性[J]. 科技信息(科学教研) 2008(18)
    • [11].点击流数据仓库中的ETL技术[J]. 科技信息(科学教研) 2008(20)
    • [12].ETL技术在复杂数据迁移项目中的应用[J]. 西安工程大学学报 2008(04)
    • [13].数据仓库维度建模与ETL过程[J]. 辽宁高职学报 2008(10)
    • [14].基于子模式的关系数据到图数据ETL方法研究[J]. 计算机工程与应用 2017(12)
    • [15].汽车行业数据仓库应用敏捷型ETL过程的研究[J]. 现代计算机(专业版) 2015(34)
    • [16].基于自主式ETL的煤炭企业统一数据交换平台的设计与实现[J]. 中国煤炭 2014(08)
    • [17].基于ETL等技术的建设用地三级联动技术研究[J]. 国土资源信息化 2013(02)
    • [18].数据映射技术在ETL过程中的应用[J]. 计算机系统应用 2012(07)
    • [19].数据仓库与ETL技术在超市中的应用研究[J]. 电脑知识与技术 2011(18)
    • [20].数控机床传感器数据分析中ETL系统改进[J]. 计算机系统应用 2017(09)
    • [21].基于ETL技术的数据交换平台在电子政务领域中的应用[J]. 电脑知识与技术 2016(21)
    • [22].ETL技术在运营商数据仓库中的应用[J]. 电信快报 2015(11)
    • [23].教学管理数据仓库中ETL的实现[J]. 科技创新导报 2011(16)
    • [24].基于数据仓库的一种通用ETL工具的设计与实现[J]. 电脑知识与技术 2008(26)
    • [25].高校数据仓库多层架构设计与ETL实现[J]. 上海工程技术大学学报 2015(02)
    • [26].人保财险公司数据仓库数据ETL的设计[J]. 计算机光盘软件与应用 2014(12)
    • [27].一种人口信息共享的ETL设计方案[J]. 西南民族大学学报(自然科学版) 2011(05)
    • [28].点击流数据仓库中ETL子系统的应用研究[J]. 硅谷 2009(07)
    • [29].ETL在金融信贷风险数据仓库中的应用[J]. 中国科技信息 2009(10)
    • [30].数据仓库中ETL技术的研究与改进[J]. 甘肃科技 2012(19)

    标签:;  ;  ;  ;  ;  

    基于ETL技术的电信业数据仓库质量控制模型的研究及应用
    下载Doc文档

    猜你喜欢