论文摘要
建立操作性数据存储是解决在保险业中大量业务数据处理、汇总和分析的一个重要技术,而ETL过程对操作性数据存储的建设有着极其重要的意义。论文通过对ETL相关研究和技术的分析,结合某保险公司的一个实际ETL系统项目,对ETL的设计和实现进行了深入的研究。设计建模方面。基于公共数据仓库元模型标准并结合项目实际情况提出了ETL系统的设计模型框架,然后通过分析处理调度单元之间的逻辑关系建立了作业调度管理元模型,在具体实现设计过程中利用ETL工具和脚本技术实现了对整个ETL系统中各险种数据处理的复杂调度。数据抽取方面。针对分布式异构多数据源的环境,论文给出了抽取-传输-缓冲-合并的抽取方法来有效地解决数据的抽取问题。ETL系统的效能方面。利用流水和分区化的思想来对单个处理调度单元提高并行度,同时利用业务规则对多个处理调度单元并行地处理来提高整体处理效能。重复记录一致化方面。给出了排序-等值匹配算法,证明了存在匹配键的情况下该方法可以有效地检测重复记录,以往的研究对检测出重复记录后的冲突处理上未见有相关的讨论,论文提出了基于业务规则的冲突处理算法。错误数据检测方面。基于领域知识提出了建立错误检测规则的方法,从理论和实验论证了该方法的有效性。数据质量方面。通过一套量化体系来统一在数据质量维度和重要性权重,利用权重对数据质量指标值加权平均的方法来对整个系统的数据质量进行综合评估。以往的研究都是将数据质量独立于ETL系统来讨论的,论文将数据质量模型框架其融入ETL系统设计模型中,从而扩充了ETL设计模型的功能和复用性。该ETL系统已成功上线。本文的意义在于,不仅提出的多项研究已成功地应用到了ETL系统建设中,而且对其他环境下的ETL系统设计和实现也有着积极的参考意义。
论文目录
相关论文文献
- [1].基于信息熵属性约简的相似重复记录检测方法[J]. 计算机与数字工程 2019(12)
- [2].一种相似重复记录检测算法的改进与应用[J]. 成都工业学院学报 2017(02)
- [3].基于模糊综合评判的相似重复记录清洗方法[J]. 北京信息科技大学学报(自然科学版) 2017(04)
- [4].基于二次模糊评判的相似重复记录检测方法[J]. 江苏师范大学学报(自然科学版) 2016(01)
- [5].融合修复代价的不一致关系数据中相似重复记录识别[J]. 现代计算机(专业版) 2015(17)
- [6].基于划分的海量数据相似重复记录检测[J]. 计算机系统应用 2019(03)
- [7].一种基于属性权值分组聚类的相似重复记录检测方法[J]. 宁波职业技术学院学报 2015(02)
- [8].大数据环境下的相似重复记录检测方法[J]. 武汉工程大学学报 2014(09)
- [9].大数据环境下一种高效的重复记录检测方法[J]. 洛阳师范学院学报 2014(11)
- [10].关于重复记录数据清理算法研究[J]. 信息技术与信息化 2013(04)
- [11].基于遗传神经网络的相似重复记录检测方法研究[J]. 舰船电子工程 2011(02)
- [12].一种有效检测汉语相似重复记录的方法[J]. 科技情报开发与经济 2011(21)
- [13].基于熵特征优选分组聚类的相似重复记录检测[J]. 传感器与微系统 2011(11)
- [14].大数据量的高效重复记录检测方法[J]. 华中科技大学学报(自然科学版) 2010(02)
- [15].基于内码序值聚类的相似重复记录检测方法[J]. 计算机应用研究 2010(03)
- [16].基于模糊综合评判的相似重复记录识别方法[J]. 计算机工程 2010(13)
- [17].数据仓库中重复记录清理算法研究[J]. 信息化纵横 2009(07)
- [18].一种在高维空间中聚类检测重复记录的新方法[J]. 计算机工程与应用 2008(29)
- [19].基于多目标蚁群优化的单类支持向量机相似重复记录检测[J]. 兵工学报 2020(02)
- [20].大型数据库重复记录检测与优化研究[J]. 现代电子技术 2020(17)
- [21].基于网格分组和属性权值的相似重复记录识别算法[J]. 青岛大学学报(自然科学版) 2017(02)
- [22].相似重复记录检测的特征优选策略探究[J]. 无线互联科技 2014(05)
- [23].检测大型数据库中汉语相似重复记录的方法[J]. 内蒙古科技与经济 2011(14)
- [24].基于数据分组匹配的相似重复记录检测[J]. 计算机工程 2010(12)
- [25].相似重复记录清理方法研究综述[J]. 现代图书情报技术 2010(09)
- [26].移动网络相似信息重复记录智能检测仿真[J]. 计算机仿真 2019(02)
- [27].一种针对关系数据库记录的相似重复记录检测算法[J]. 电脑知识与技术 2018(13)
- [28].基于R-树索引的高维相似重复记录检测改进算法[J]. 微电子学与计算机 2017(09)
- [29].一种改进的相似重复记录检测算法[J]. 计算机应用与软件 2014(01)
- [30].海量数据的相似重复记录检测算法[J]. 计算机应用 2013(08)