论文题目: ETL关键技术研究
论文类型: 硕士论文
论文专业: 计算机应用技术
作者: 于立
导师: 徐宏炳
关键词: 数据转换,元数据,元模型,数据清洗
文献来源: 东南大学
发表年度: 2005
论文摘要: 构建数据仓库和数据集成应用都需要使用ETL工具,要求ETL工具能支持多种数据转换源和目标、软件易于部署和使用以及转换手段多样化。市场上现有的ETL工具都不能完全满足数据仓库和数据集成要求。 本文结合对自行研制的ETL工具——SEU_ETL的改进和技术预研,研究了ETL工具实现的关键技术。针对SEU_ETL工具的不足,我们使用了CWM来描述ETL过程。构建了统一数据模型描述物理数据源对应的数据存储模型,屏蔽不同数据模型中描述的差异;构建了转换元模型来描述ETL转换的逻辑过程,屏蔽ETL转换具体实现的差异;构建了运行调度元模型,描述ETL过程的运行实现,屏蔽不同软件部署方式的差异。在元数据管理中,引入了动态属性概念,提高了ETL过程设计的灵活性和设计效率,较好的解决了遗留系统的业务数据处理。在ETL转换中引入了脚本转换,并对SQL进行了扩展以适合ETL的需要,实现了对UDF的支持,增加了可使用的转换手段。实现了和数据转换相融合的数据清洗框架,定义的数据清洗规则可以自动执行。对ETL过程的运行调度作了一定研究,实现了ETL转换的粒度控制。 通过这些改进,SEU_ETL已经能够满足构建数据仓库和数据集成的要求,实现现有的转换类型,并为用户提供了一个友好的设计-调试界面。
论文目录:
摘要
Abstract
第一章 引言
1.1.研究背景
1.2.研究现状
1.3.我们的工作
1.4 本文的组织结构
第二章 SEU_ETL的元数据管理及应用
2.1.CWM简介
2.2 SEU_ETL元数据管理
2.2.1 SEU_ETL元模型
2.2.1.1 统一数据模型
2.2.1.2 转换元模型
2.2.1.3 运行调度元模型
2.2.2 SEU_ETL元数据管理策略
2.2.3 SEU_ETL元数据存储
2.3 动态属性
2.3.1 动态属性问题的产生
2.3.2 动态属性解决方案
第三章 SEU_ETL软件架构
3.1 SEU_ETL转换概念
3.2 SEU_ETL软件体系结构
第四章 转换器的设计与实现
4.1 脚本转换的实现
4.1.1 脚本转换的功能
4.1.2 ActiveX脚本控制器
4.1.3 SEU_ETL全局变量
4.1.4 转换活动源和目标
4.1.5 脚本转换异常处理
4.2 SEESQL-扩展SQL
4.2.1 SEESQL功能
4.2.2 定义转换映射
4.2.3 定义清洗规则
4.2.4 扩展SQL转换映射实现
4.3 UDF调用的实现
4.3.1 注册UDF
4.3.2 调用UDF流程
4.3.3 UDF使用
第五章 数据质量控制
5.1 数据质量问题
5.2 SEU_ETL数据清洗框架
5.2.1 数据清洗流程
5.2.2 数据分析
5.2.3 数据清洗规则
5.3 相似重复记录处理
5.4 清洗规则的执行
第六章 转换任务的执行调度
6.1 执行转换任务
6.2 转换活动的串行化
6.3 抽取粒度控制
第七章 总结
致谢
参考文献
发布时间: 2007-06-11
参考文献
- [1].基于数据仓库ETL技术的数据提取与数据转换研究[D]. 王涛.吉林大学2011
- [2].基于ETL的公安情报数据质量分析与优化[D]. 王霞.中国科学院大学(工程管理与信息技术学院)2016
- [3].构建数据仓库的ETL系统研究[D]. 李恒锐.西安理工大学2009
- [4].基于工作流和元数据的ETL工具研究与实现[D]. 张晖.河北工业大学2006
- [5].数据仓库中ETL技术的研究与实现[D]. 廉博.沈阳工业大学2006
- [6].中海油数据仓库ETL工具的设计与实现[D]. 刘换来.北京邮电大学2011
- [7].基于ETL及GBDT题库并行去重的应用研究[D]. 李景.国防科学技术大学2016
- [8].基于Spark框架的分布式ETL设计与实现[D]. 蒿翠玲.华中科技大学2016
- [9].面向实时数据仓库的ETL研究[D]. 徐春艳.南京航空航天大学2007
- [10].邮政名址数据仓库中ETL的设计与实现[D]. 李可夫.北京邮电大学2008
相关论文
- [1].面向实时数据仓库的ETL研究[D]. 徐春艳.南京航空航天大学2007
- [2].ETL执行过程的优化研究[D]. 吴远红.东南大学2006
- [3].通用ETL工具的研究与开发[D]. 赵双瑞.西安理工大学2007
- [4].通用ETL技术的研究与实现[D]. 连仁包.福州大学2005