ETL系统在保险行业ODS中的设计和实现

ETL系统在保险行业ODS中的设计和实现

论文摘要

建立操作性数据存储是解决在保险业中大量业务数据处理、汇总和分析的一个重要技术,而ETL过程对操作性数据存储的建设有着极其重要的意义。论文通过对ETL相关研究和技术的分析,结合某保险公司的一个实际ETL系统项目,对ETL的设计和实现进行了深入的研究。设计建模方面。基于公共数据仓库元模型标准并结合项目实际情况提出了ETL系统的设计模型框架,然后通过分析处理调度单元之间的逻辑关系建立了作业调度管理元模型,在具体实现设计过程中利用ETL工具和脚本技术实现了对整个ETL系统中各险种数据处理的复杂调度。数据抽取方面。针对分布式异构多数据源的环境,论文给出了抽取-传输-缓冲-合并的抽取方法来有效地解决数据的抽取问题。ETL系统的效能方面。利用流水和分区化的思想来对单个处理调度单元提高并行度,同时利用业务规则对多个处理调度单元并行地处理来提高整体处理效能。重复记录一致化方面。给出了排序-等值匹配算法,证明了存在匹配键的情况下该方法可以有效地检测重复记录,以往的研究对检测出重复记录后的冲突处理上未见有相关的讨论,论文提出了基于业务规则的冲突处理算法。错误数据检测方面。基于领域知识提出了建立错误检测规则的方法,从理论和实验论证了该方法的有效性。数据质量方面。通过一套量化体系来统一在数据质量维度和重要性权重,利用权重对数据质量指标值加权平均的方法来对整个系统的数据质量进行综合评估。以往的研究都是将数据质量独立于ETL系统来讨论的,论文将数据质量模型框架其融入ETL系统设计模型中,从而扩充了ETL设计模型的功能和复用性。该ETL系统已成功上线。本文的意义在于,不仅提出的多项研究已成功地应用到了ETL系统建设中,而且对其他环境下的ETL系统设计和实现也有着积极的参考意义。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 背景及问题的提出
  • 1.1.1 ETL 应用背景
  • 1.1.2 设计和实现ETL 系统面临的挑战
  • 1.2 国内外研究现状
  • 1.3 研究的目标及其主要的内容
  • 1.4 本文的组织结构及其章节编排
  • 第二章 ETL 系统设计模型框架
  • 2.1 ODS、ETL 和CWM
  • 2.1.1 ODS 系统
  • 2.1.2 ETL 系统
  • 2.1.3 CWM
  • 2.2 ETL 系统设计模型框架的提出
  • 2.2.1 设计思想
  • 2.2.2 功能结构
  • 2.2.3 工作处理流程
  • 2.3 分布式异构多数据源的数据抽取
  • 2.4 ETL 处理调度模型
  • 2.5 ETL 系统中的效能问题
  • 2.5.1 调度元数据的效能
  • 2.5.2 多个调度元数据之间的并行性
  • 2.6 小结
  • 第三章 ETL 系统中的数据清理
  • 3.1 数据清理的意义和数据问题分类
  • 3.1.1 数据清理在ETL 系统中的作用
  • 3.1.2 数据问题的分类
  • 3.2 重复数据的处理
  • 3.2.1 字符匹配方法
  • 3.2.2 基本近邻排序算法
  • 3.2.3 基本排序-等值匹配方法
  • 3.2.4 客户数据的一致化
  • 3.3 错误数据的处理
  • 3.3.1 错误数据的基本算法
  • 3.3.2 基于领域知识的错误数据检测
  • 3.4 小结
  • 第四章 ETL 数据质量
  • 4.1 数据质量和影响数据质量问题的原因
  • 4.1.1 数据质量
  • 4.1.2 影响数据质量问题的原因
  • 4.2 数据质量的评估
  • 4.2.1 数据质量指标的组成
  • 4.2.2 数据质量评估体系
  • 4.3 数据质量模型框架组成
  • 4.3.1 数据质量元模型
  • 4.3.2 数据质量元模型与其他元模型的关系
  • 4.3.3 数据质量模型框架实现
  • 4.4 小结
  • 第五章 ETL 系统的具体实现
  • 5.1 ETL 系统设计模型框架的实现
  • 5.1.1 实现方式选择
  • 5.1.2 分布式异构数据源的数据抽取
  • 5.1.3 对抽取文件进行处理形成一致的客户数据
  • 5.2 客户数据一致化的具体实现
  • 5.2.1 匹配键和冲突处理业务规则的确立
  • 5.2.2 一致化实现过程
  • 5.3 整个ETL 系统调度处理的实现
  • 5.3.1 调度技术实现
  • 5.3.2 调度过程实现
  • 5.4 数据处理的并行实现
  • 5.5 ETL 系统验证情况
  • 5.5.1 ETL 系统实际验证情况
  • 5.5.2 错误数据清理的实验验证
  • 5.6 小结
  • 第六章 总结与展望
  • 6.1 本文工作回顾
  • 6.2 成果及意义
  • 6.3 存在的问题及进一步的工作
  • 参考文献
  • 致谢
  • 作者攻读学位期间发表的论文
  • 相关论文文献

    • [1].基于信息熵属性约简的相似重复记录检测方法[J]. 计算机与数字工程 2019(12)
    • [2].一种相似重复记录检测算法的改进与应用[J]. 成都工业学院学报 2017(02)
    • [3].基于模糊综合评判的相似重复记录清洗方法[J]. 北京信息科技大学学报(自然科学版) 2017(04)
    • [4].基于二次模糊评判的相似重复记录检测方法[J]. 江苏师范大学学报(自然科学版) 2016(01)
    • [5].融合修复代价的不一致关系数据中相似重复记录识别[J]. 现代计算机(专业版) 2015(17)
    • [6].基于划分的海量数据相似重复记录检测[J]. 计算机系统应用 2019(03)
    • [7].一种基于属性权值分组聚类的相似重复记录检测方法[J]. 宁波职业技术学院学报 2015(02)
    • [8].大数据环境下的相似重复记录检测方法[J]. 武汉工程大学学报 2014(09)
    • [9].大数据环境下一种高效的重复记录检测方法[J]. 洛阳师范学院学报 2014(11)
    • [10].关于重复记录数据清理算法研究[J]. 信息技术与信息化 2013(04)
    • [11].基于遗传神经网络的相似重复记录检测方法研究[J]. 舰船电子工程 2011(02)
    • [12].一种有效检测汉语相似重复记录的方法[J]. 科技情报开发与经济 2011(21)
    • [13].基于熵特征优选分组聚类的相似重复记录检测[J]. 传感器与微系统 2011(11)
    • [14].大数据量的高效重复记录检测方法[J]. 华中科技大学学报(自然科学版) 2010(02)
    • [15].基于内码序值聚类的相似重复记录检测方法[J]. 计算机应用研究 2010(03)
    • [16].基于模糊综合评判的相似重复记录识别方法[J]. 计算机工程 2010(13)
    • [17].数据仓库中重复记录清理算法研究[J]. 信息化纵横 2009(07)
    • [18].一种在高维空间中聚类检测重复记录的新方法[J]. 计算机工程与应用 2008(29)
    • [19].基于多目标蚁群优化的单类支持向量机相似重复记录检测[J]. 兵工学报 2020(02)
    • [20].大型数据库重复记录检测与优化研究[J]. 现代电子技术 2020(17)
    • [21].基于网格分组和属性权值的相似重复记录识别算法[J]. 青岛大学学报(自然科学版) 2017(02)
    • [22].相似重复记录检测的特征优选策略探究[J]. 无线互联科技 2014(05)
    • [23].检测大型数据库中汉语相似重复记录的方法[J]. 内蒙古科技与经济 2011(14)
    • [24].基于数据分组匹配的相似重复记录检测[J]. 计算机工程 2010(12)
    • [25].相似重复记录清理方法研究综述[J]. 现代图书情报技术 2010(09)
    • [26].移动网络相似信息重复记录智能检测仿真[J]. 计算机仿真 2019(02)
    • [27].一种针对关系数据库记录的相似重复记录检测算法[J]. 电脑知识与技术 2018(13)
    • [28].基于R-树索引的高维相似重复记录检测改进算法[J]. 微电子学与计算机 2017(09)
    • [29].一种改进的相似重复记录检测算法[J]. 计算机应用与软件 2014(01)
    • [30].海量数据的相似重复记录检测算法[J]. 计算机应用 2013(08)

    标签:;  ;  ;  ;  

    ETL系统在保险行业ODS中的设计和实现
    下载Doc文档

    猜你喜欢