数据集成环境下的ETL工具设计及实现

数据集成环境下的ETL工具设计及实现

论文摘要

本文研究了数据集成环境下的ETL工具设计与实现技术,重点探讨了建立在Web服务基础上的ETL实现方式及人工智能技术在数据清洗方面的应用,并作了改进。本文首先介绍ETL的概念、研究现状;接着概述ETL涉及的主要的关键技术;第三部分提出基于Web Services的ETL原型并对ETL主要模块进行了详细设计;在第四部分详细介绍部分关键模块的改进细节与实现技术。本文的特色之一是将ETL工具建立在Web服务基础上,在元数据的映射方面使用了直接映射的方法,从而增强了ETL工具的适应性;本文的另一特色在于在数据清洗模块中引入人工智能处理技术,并对判定树方法在空缺值处理方面的应用、相似重复值的多趟近邻检测算法及位置编码检测算法进行了改进和优化,异常值的检测则首先对数据进行分类,并在此基础上根据统计学原理来判断数值异常,利用基于业务规则库的检测方法来判断其它属性列异常,并对两种判断方法所得的结果进行合并。空缺值的改进使得程序自动化程度得到提高;异常值检测由于采用两种方法,使检测效果得以改善;实验结果表明相似重复值检测算法方面的改进在保证查全率的同时有效地提高了检测的准确率与效率,并增强了检测的稳定性。本文使用Ajax技术建立ETL客户端,避免了B/S架构中固有的频繁刷新问题,同时由于Ajax采用异步技术与服务器通信,缩短了系统的响应时间,减少用户操作的等待时间,从而改善了用户与系统的交互体验。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题背景
  • 1.2 国内外相关研究现状
  • 1.2.1 ETL 工具概述
  • 1.2.2 ETL 工具实现技术的局限性
  • 1.3 本文的主要工作及研究方向
  • 第二章 相关技术介绍
  • 2.1 数据集成方法
  • 2.1.1 模式集成方法
  • 2.1.2 数据复制方法
  • 2.1.3 综合型集成方法
  • 2.1.4 P2P 集成方法
  • 2.2 Web Services 技术
  • 2.2.1 SOAP 协议
  • 2.2.2 Web 服务体系结构及基本过程
  • 第三章 基于Web 服务的ETL 原型设计
  • 3.1 需求分析
  • 3.1.1 数字化校园数据集成方案分析
  • 3.1.2 业务系统数据整合工具(ETL)需求分析
  • 3.2 ETL 原型的总体设计
  • 3.3 ETL 原型的详细设计
  • 3.3.1 数据抽取模块的详细设计
  • 3.3.2 XMLParse 模块的详细设计
  • 3.3.3 数据转换模块DBDataTran 的详细设计
  • 3.3.4 数据装载模块DBDataLoad 的详细设计
  • 3.3.5 ETLClient 模块的详细设计
  • 3.4 ETL 系统平台与与开发工具选择
  • 第四章 关键技术实现及其实验结果
  • 4.1 数据清洗方法
  • 4.1.1 空缺值清理方法
  • 4.1.2 相似重复值检测算法的改进与实现
  • 4.1.3 异常值检测清理方法
  • 4.2 元数据获取及直接映射方法
  • 4.2.1 元数据的定义及重要性
  • 4.2.2 获取数据库元数据方法
  • 第五章 总结
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  

    数据集成环境下的ETL工具设计及实现
    下载Doc文档

    猜你喜欢