论文摘要
数据交换平台是一个在不同数据库、不同数据格式之间,进行数据交换服务的平台。它要解决的是现阶段不同应用系统之间信息数据无法自由转换的问题。本文的在综合研究了目前数据交换平台所采用的相关技术的基础上,利用增量ETL技术和分布式思想,建立了基于增量ETL的分布式数据交换平台,并在实际工作中得到了有效的应用。具体完成了以下工作:1、提出了基于关键属性比对的增量数据抽取方法,包括关键属性提取算法和基于关键属性比对的增量数据抽取方法模型,介绍了方法的适用范围,并与全表比对方法和全表删除插入方法进行对比,分析了空间复杂度和时间复杂度,说明了其优越性,用实验验证了分析的正确性。2、提出了基于按行数据分片的分布式增量ETL优化方法,在增量数据抽取的基础上,对前人的ETL优化框架进行了改进,提出了增量ETL优化框架;在同顺序作业理论的基础上,提出了数据的按行分片机制以及分片数的最佳取值方法,从理论上证明了其正确性,然后给出了具体算法,用实验验证了算法的正确性并对实验结果进行了分析。3、在理论研究的基础上,提出了数据交换平台的整体框架,并对关键模块进行了设计与实现。最后对系统进行了测试,测试结果证明系统具有较好的实用性和稳定性。
论文目录
摘要ABSTRACT第一章 绪论1.1 论文研究的背景及意义1.2 研究现状1.2.1 数据交换研究现状1.2.2 ETL 研究现状1.3 论文的研究内容1.3.1 研究思路1.3.2 主要工作1.4 论文章节安排第二章 相关技术研究2.1 ETL 技术介绍2.1.1 数据抽取2.1.2 数据清洗和转换2.1.3 数据加载2.2 增量抽取机制研究2.2.1 触发器方法2.2.2 时间戳方法2.2.3 全表删除插入方法2.2.4 全表比对方法2.2.5 日志表方法2.2.6 系统日志分析方法2.2.7 特定数据库方法2.3 分布式增量ETL 研究2.3.1 数据流分割2.3.2 并行数据转换处理2.3.3 管道并行处理2.4 数据交换平台关键技术介绍2.4.1 XML 语言介绍2.4.2 Web Services 技术介绍2.4.3 数据交换平台体系结构介绍2.5 本章小结第三章 基于关键属性比对的增量数据抽取方法3.1 增量数据抽取机制优劣分析3.1.1 触发器方法的优劣分析3.1.2 时间戳方法优劣分析3.1.3 全表删除插入方法优劣分析3.1.4 全表比对方法优劣分析3.1.5 日志表方法优劣分析3.1.6 系统日志分析方法优劣分析3.1.7 特定数据库方法优劣分析3.2 基于关键属性比对的增量数据抽取方法模型3.2.1 相关定义3.2.2 关键属性提取算法3.2.3 模型的建立3.2.4 效率分析3.3 实验与结果分析3.4 本章小结第四章 基于按行数据分片的分布式增量ETL 过程优化4.1 ETL 优化框架4.2 基于按行数据分片的增量ETL 优化算法4.2.1 相关符号及定义4.2.2 理论的提出4.2.3 理论的证明4.2.4 优劣比较及数据分片的原则4.2.5 算法描述4.3 实验与结果分析4.3.1 实验环境及实验数据来源4.3.2 实验策略4.3.3 结果分析4.4 本章小结第五章 系统的设计与实现5.1 引言5.2 系统总体架构5.3 系统关键模块的实现5.3.1 系统父节点类图设计5.3.2 增量抽取模块的设计与实现5.3.3 分布式转换模块的设计与实现5.4 系统运行测试5.4.1 测试方案5.4.2 测试流程5.4.3 测试结果5.5 本章小结第六章 总结与展望6.1 本文的主要工作及创新点6.2 未来工作展望致谢参考文献作者在学期间取得的学术成果
相关论文文献
标签:数据交换论文; 增量数据抽取论文; 关键属性论文; 数据分片论文;