
论文摘要
本文研究了数据集成环境下的ETL工具设计与实现技术,重点探讨了建立在Web服务基础上的ETL实现方式及人工智能技术在数据清洗方面的应用,并作了改进。本文首先介绍ETL的概念、研究现状;接着概述ETL涉及的主要的关键技术;第三部分提出基于Web Services的ETL原型并对ETL主要模块进行了详细设计;在第四部分详细介绍部分关键模块的改进细节与实现技术。本文的特色之一是将ETL工具建立在Web服务基础上,在元数据的映射方面使用了直接映射的方法,从而增强了ETL工具的适应性;本文的另一特色在于在数据清洗模块中引入人工智能处理技术,并对判定树方法在空缺值处理方面的应用、相似重复值的多趟近邻检测算法及位置编码检测算法进行了改进和优化,异常值的检测则首先对数据进行分类,并在此基础上根据统计学原理来判断数值异常,利用基于业务规则库的检测方法来判断其它属性列异常,并对两种判断方法所得的结果进行合并。空缺值的改进使得程序自动化程度得到提高;异常值检测由于采用两种方法,使检测效果得以改善;实验结果表明相似重复值检测算法方面的改进在保证查全率的同时有效地提高了检测的准确率与效率,并增强了检测的稳定性。本文使用Ajax技术建立ETL客户端,避免了B/S架构中固有的频繁刷新问题,同时由于Ajax采用异步技术与服务器通信,缩短了系统的响应时间,减少用户操作的等待时间,从而改善了用户与系统的交互体验。
论文目录
摘要Abstract第一章 绪论1.1 课题背景1.2 国内外相关研究现状1.2.1 ETL 工具概述1.2.2 ETL 工具实现技术的局限性1.3 本文的主要工作及研究方向第二章 相关技术介绍2.1 数据集成方法2.1.1 模式集成方法2.1.2 数据复制方法2.1.3 综合型集成方法2.1.4 P2P 集成方法2.2 Web Services 技术2.2.1 SOAP 协议2.2.2 Web 服务体系结构及基本过程第三章 基于Web 服务的ETL 原型设计3.1 需求分析3.1.1 数字化校园数据集成方案分析3.1.2 业务系统数据整合工具(ETL)需求分析3.2 ETL 原型的总体设计3.3 ETL 原型的详细设计3.3.1 数据抽取模块的详细设计3.3.2 XMLParse 模块的详细设计3.3.3 数据转换模块DBDataTran 的详细设计3.3.4 数据装载模块DBDataLoad 的详细设计3.3.5 ETLClient 模块的详细设计3.4 ETL 系统平台与与开发工具选择第四章 关键技术实现及其实验结果4.1 数据清洗方法4.1.1 空缺值清理方法4.1.2 相似重复值检测算法的改进与实现4.1.3 异常值检测清理方法4.2 元数据获取及直接映射方法4.2.1 元数据的定义及重要性4.2.2 获取数据库元数据方法第五章 总结参考文献致谢
相关论文文献
标签:服务论文; 人工智能论文;