构件化数据清洗框架的研究与实现

构件化数据清洗框架的研究与实现

论文摘要

大规模、跨领域数据仓库的出现,使数据仓库中的数据量日益增多,数据模式日趋复杂,清洗过程设计更加繁琐。这些变化使数据清洗软件的开发出现了很多新的需求,如动态构建、频繁的修改以及更多的用户交互等。因此,如何设计能够可重用的数据清洗过程以满足数据清洗软件新的需求,成为数据清洗软件设计和开发人员的新挑战。为解决上述问题,本文深入地研究了数据清洗的逻辑模型以及构件化物理实现,完成了如下两部分工作:一是提出数据清洗过流程模型DCPM (Data Cleansing Process Model),并证明基于该模型使用工作流网建模技术对数据清洗过程进行建模的可行性。这使得设计数据清洗过程可以遵照统一的模型,并使用成熟的建模技术进行建模。该模型描述了数据清洗流程中内部各个元素,元素之间的关系和元素的属性。通过使用统一的模型对数据清洗流程进行建模,显著地提高了清洗流程的可复用性。二是分析了目前开发数据清洗软件所出现的新需求和已有的开发手段的不足,提出并实现了基于构件的数据清洗框架C+ADC (Component-extended Agile Data Cleaning),包括运行时平台和框架服务构件集。基于该框架,能够轻松、灵活地构建基于扩展构件的数据清洗应用,显著地降低开发成本和周期。定义了集成与该框架的构件模型和数据清洗流程业务空间向构件空间映射策略,以更好地实现数据清洗应用。实际的开发案例证明:使用DCPM模型建模数据清洗流程并基于C+ADC框架进行数据清洗应用开发,能够快速地构建基于构件的灵活的、可扩展的数据清洗应用软件。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 本文的目标和意义
  • 1.3 本文研究工作
  • 1.4 本文组织结构
  • 第2章 相关技术概述
  • 2.1 数据清洗技术
  • 2.1.1 数据清洗的概念
  • 2.1.2 数据清洗的基本方法
  • 2.1.3 数据清洗的基本过程
  • 2.2 软件复用技术
  • 2.2.1 软件构件技术
  • 2.2.2 软件框架技术
  • 2.3 工作流技术
  • 2.3.1 Petri网概述
  • 2.3.2 工作流网
  • 2.4 本章小结
  • 第3章 数据清洗过程模型及建模方式
  • 3.1 数据清洗过程模型
  • 3.1.1 数据清洗过程定义
  • 3.1.2 数据清洗过程模型DCPM
  • 3.2 基于DCPM的数据清洗过程建模
  • 3.2.1 数据清洗过程建模方法
  • 3.2.2 基于DCPM建模的改进策略
  • 3.3 基于DCPM建立数据清洗过程示例
  • 3.4 本章小结
  • +ADC的设计'>第4章 数据清洗框架C+ADC的设计
  • 4.1 新的需求和以往技术的不足
  • 4.2 面向过程的构件模型
  • 4.3 数据清洗过程空间向构件空间的映射
  • 4.3.1 构件粒度
  • 4.3.2 数据清洗过程空间向构件空间的映射算法
  • 4.4 框架的体系结构
  • 4.4.1 框架的体系结构概述
  • 4.4.2 框架核心包的设计
  • 4.4.3 运行时平台
  • 4.4.4 框架的基础服务
  • 4.5 本章小结
  • +ADC的实现与测试'>第5章 数据清洗框架C+ADC的实现与测试
  • +ACD框架的具体技术'>5.1 实现C+ACD框架的具体技术
  • 5.1.1 Microsoft .Net 2.0
  • 5.1.2 C#语言
  • +ADC框架的实现'>5.2 C+ADC框架的实现
  • 5.2.1 核心层的实现
  • 5.2.2 运行时平台
  • 5.2.3 框架基础服务构件的实现
  • 5.2.4 系统的测试与结论
  • 5.3 本章小结
  • +ADC的应用案例分析'>第6章 清洗框架C+ADC的应用案例分析
  • 6.1 海洋数据体系和海洋数据仓库
  • +ADC框架的数据清洗应用'>6.2 基于C+ADC框架的数据清洗应用
  • 6.3 框架的复用性能分析
  • 6.4 本章小结
  • 第7章 结束语
  • 7.1 工作总结
  • 7.2 下一步计划
  • 参考文献
  • 致谢
  • 攻硕期间参加项目及发表论文情况
  • 相关论文文献

    • [1].分布式数据清洗系统设计[J]. 网络安全技术与应用 2020(02)
    • [2].产品质量标准数据清洗模型及应用研究[J]. 标准科学 2020(04)
    • [3].农业微气象观测数据清洗和质控技术研究[J]. 湖北农业科学 2020(14)
    • [4].基于大数据的数据清洗技术及运用[J]. 数字技术与应用 2019(04)
    • [5].智慧校园建设中数据清洗模块的设计[J]. 计算机与网络 2019(13)
    • [6].大数据清洗的方法论考察[J]. 江南论坛 2018(03)
    • [7].基于大数据决策分析需求的图书馆大数据清洗系统设计[J]. 现代情报 2016(09)
    • [8].浅谈医保联机结算系统决策树的数据处理[J]. 知音励志 2016(16)
    • [9].高效四维航迹数据清洗技术(英文)[J]. Transactions of Nanjing University of Aeronautics and Astronautics 2020(02)
    • [10].生态环境监测的数据清洗研究[J]. 网络安全技术与应用 2019(01)
    • [11].大数据的数据清洗技术及运用[J]. 电子技术与软件工程 2019(09)
    • [12].大数据环境下的数据清洗框架研究[J]. 软件 2017(12)
    • [13].基于电力行业数据清洗转换的过程方法分析[J]. 现代盐化工 2018(05)
    • [14].大数据的数据清洗方法研究[J]. 信息通信 2017(01)
    • [15].中文数据清洗研究综述[J]. 计算机工程与应用 2012(14)
    • [16].分流机制下的RFID不确定数据清洗策略[J]. 计算机科学 2011(S1)
    • [17].数据清洗方法研究综述[J]. 软件导刊 2017(12)
    • [18].科技创新大数据清洗框架研究[J]. 河北省科学院学报 2018(02)
    • [19].基于主动学习的数据清洗系统[J]. 软件工程 2018(09)
    • [20].数据清洗技术在汽车板力学性能分析中的应用[J]. 冶金自动化 2018(06)
    • [21].统计调查中数据清洗的应用探讨[J]. 市场研究 2019(07)
    • [22].高校图书馆数据清洗问题与策略研究[J]. 高校图书馆工作 2017(06)
    • [23].基于密度的数据清洗方法研究与评估[J]. 电子元器件与信息技术 2017(01)
    • [24].基于大数据的数据清洗研究[J]. 江西科学 2018(04)
    • [25].基于多阶段递进识别的风电机组异常运行数据清洗方法[J]. 可再生能源 2020(11)
    • [26].论数据清洗对信息检索质量的影响及清洗方法[J]. 中国索引 2012(01)
    • [27].数据清洗在统计调查实践中的应用[J]. 调研世界 2018(10)
    • [28].关于任务合并的并行大数据清洗过程中的模块优化[J]. 自动化应用 2017(08)
    • [29].胸痛中心数据清洗方法研究[J]. 中国数字医学 2018(04)
    • [30].多固定阅读器下基于路径约束的RFID数据清洗算法[J]. 计算机研究与发展 2011(S3)

    标签:;  ;  ;  ;  ;  

    构件化数据清洗框架的研究与实现
    下载Doc文档

    猜你喜欢