实时数据仓库环境中科学数据排重模型的研究

实时数据仓库环境中科学数据排重模型的研究

论文摘要

在信息时代,正确的决策成为竞争强有力的武器。为制定战略意义上的商业计划,进行战术上的商业决策,各企业纷纷构建数据仓库。但是,由于数据仓库从各种数据源中导入大量的数据,而一些数据源包含“脏”数据的概率是非常高的;另一方面,对用于决策支持的数据仓库而言,其中数据的质量对避免错误的决策是至关重要的。重复数据是影响数据质量的一个重要因素,数据重复不仅会造成数据的冗余,使数据量增大,增加数据仓库的负担,还会严重影响分析和决策。因此,在数据仓库中,数据排重是提高数据质量的必不可少的方法之一。实时数据仓库是数据仓库技术的一个新的发展方向。它是指一个数据源的任何改变都自动,且立即反映到数据仓库中。实时数据仓库的发展又给保证数据质量的问题带来了新的挑战。实时数据仓库的数据源的变化是即时反应到数据仓库中的,也就是说ETL是实时的,这就需要实时的保证数据的质量,以支持前端的查询和分析。而以前的质量保证的研究大多是基于非实时的数据仓库,因此,需要一种新的调度方法来更加准确、高效的保证数据仓库中数据的可信度。本文首先提出了一种面向科学数据的通用排重模型,介绍了科学数据特点,然后详细描述了该排重模型,证明传统的“排序&合并”方法不适合于科学数据排重并给出本模型的算法细节,同时介绍了该模型的调度流程、体系结构和实现;然后,分析了实时数据仓库中数据质量保证的困难和问题,提出了在实时环境下的排重优先调度策略、实时调度策略、ETL优先调度策略,并且一一给出了具体分析,在ETL优先调度策略中,定义了排重繁忙度、累积延时等评价指标,给出了基于时间和基于事件的两种调度策略,从而将SD2M排重模型应用于实时数据仓库之中;最后,通过实验证明SD2M排重模型的稳定性和高效性、以及本文所提出的实时环境下的调度策略的合理性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 数据排重简介
  • 1.1.2 实时数据仓库简介
  • 1.2 本文的目标与意义
  • 1.3 本文完成工作
  • 1.4 本文组织结构
  • 第二章 相关技术概述
  • 2.1 实时数据仓库
  • 2.1.1 实时数据仓库的定义
  • 2.1.2 实时数据仓库与传统数据仓库的比较
  • 2.1.3 实时数据仓库的体系结构
  • 2.2 数据质量
  • 2.2.1 数据质量的定义
  • 2.2.2 数据质量的重要性
  • 2.2.3 数据质量的评价标准
  • 2.3 数据排重
  • 2.3.1 递归匹配方法
  • 2.3.2 Smith-Waterman算法
  • 2.3.3 多趟临近排序方法
  • 2.4 调度算法
  • 2.4.1 先来先服务调度算法
  • 2.4.2 优先级法
  • 2.4.3 最短任务优先法
  • 2.4.4 最高响应比优先法
  • 2.5 本章小结
  • 2M排重模型及排重算法'>第三章 SD2M排重模型及排重算法
  • 3.1 科学数据的特点
  • 2M模型定义'>3.2 SD2M模型定义
  • 2M排重算法'>3.3 SD2M排重算法
  • 3.3.1 完全排重
  • 3.3.2 增量排重
  • 3.4 排重模板
  • 2M算法性能优化'>3.5 SD2M算法性能优化
  • 2M模型系统结构'>3.6 SD2M模型系统结构
  • 3.7 相关工作
  • 3.8 本章小结
  • 2M模型的排重调度'>第四章 RTDWH中基于SD2M模型的排重调度
  • 4.1 问题的提出
  • 4.2 排重优先调度策略
  • 4.3 实时调度
  • 4.4 ETL优先调度策略
  • 4.4.1 调度分析
  • 4.4.2 基于时间触发的调度
  • 4.4.3 基于事件触发的调度
  • 4.5 策略评价
  • 4.6 相关工作
  • 4.7 本章小结
  • 2M排重模型的测试与应用'>第五章 SD2M排重模型的测试与应用
  • 5.1 实验结果
  • 5.1.1 排重算法实验
  • 5.1.2 调度算法效果
  • 5.2 案例分析
  • 5.3 本章小结
  • 第六章 结束语
  • 6.1 本文工作
  • 6.2 进一步工作
  • 参考文献
  • 致谢
  • 攻读硕士期间参加的项目及发表的论文
  • 相关论文文献

    • [1].数据仓库技术在高速公路数据仓库系统中的应用[J]. 吉林交通科技 2011(01)
    • [2].基于微软数据仓库的农业科技支撑数据应用分析与展望[J]. 农业展望 2019(12)
    • [3].计算机数据仓库的构建原理及发展趋势[J]. 延边教育学院学报 2018(06)
    • [4].七大云计算数据仓库[J]. 计算机与网络 2019(20)
    • [5].基于网络数据仓库及OLAP技术的决策支持系统设计[J]. 网络安全技术与应用 2015(11)
    • [6].大数据环境下动态数据仓库的应用研究[J]. 电子技术与软件工程 2015(02)
    • [7].维数据仓库及其在复杂数据建模中的应用研究[J]. 通讯世界 2015(03)
    • [8].使用数据清洗技术进行中医药数据仓库质量控制研究[J]. 中国数字医学 2012(04)
    • [9].数据仓库构建之行为模式分析[J]. 信息系统学报 2013(01)
    • [10].采用云计算技术构建大型数据仓库平台的解析[J]. 计算机光盘软件与应用 2013(22)
    • [11].再谈数据仓库[J]. 软件和信息服务 2013(02)
    • [12].数据仓库突破者[J]. 软件和信息服务 2010(04)
    • [13].基于SQL Server 2005构建数据仓库的探索[J]. 新课程(教育学术) 2012(01)
    • [14].重塑传统,打造第四代数据仓库[J]. 软件和集成电路 2019(01)
    • [15].基于数据仓库的数据血缘管理研究[J]. 轻工科技 2019(04)
    • [16].数据仓库在区域健康管理大数据平台构建中的应用[J]. 中国卫生信息管理杂志 2019(03)
    • [17].水质监测实验室信息管理系统中数据仓库的运用[J]. 信息系统工程 2019(07)
    • [18].测量数据仓库的概念研究[J]. 遥测遥控 2018(01)
    • [19].生态应急决策支持数据仓库战略设计与实施研究[J]. 镇江高专学报 2018(01)
    • [20].云环境下的分层数据仓库架构及其服务研究[J]. 现代信息科技 2018(01)
    • [21].医院信息化建设中数据仓库技术的应用[J]. 信息与电脑(理论版) 2018(22)
    • [22].基于大数据平台构建数据仓库的研究与实践[J]. 中国金融电脑 2017(05)
    • [23].面向大型装备状态分析的分布式实时数据仓库构建技术[J]. 计算机集成制造系统 2017(10)
    • [24].基于数据仓库和数据采集的高校教学管理决策支持系统研究[J]. 佳木斯职业学院学报 2015(12)
    • [25].农信数据仓库的建设路径[J]. 中国农村金融 2015(02)
    • [26].数据仓库与数据技术的研究与应用[J]. 信息与电脑(理论版) 2014(24)
    • [27].数据仓库可以帮助医疗保健机构达到有效使用[J]. 中国数字医学 2011(07)
    • [28].关于数据库技术与数据仓库的思考[J]. 数字技术与应用 2015(09)
    • [29].浅析地质数据仓库的特点及数据组织[J]. 科学中国人 2016(17)
    • [30].浅析数据仓库与数据挖掘的应用[J]. 内江科技 2014(01)

    标签:;  ;  ;  ;  ;  

    实时数据仓库环境中科学数据排重模型的研究
    下载Doc文档

    猜你喜欢