论文题目: 基于规则的交互式数据清洗技术
论文类型: 硕士论文
论文专业: 计算机应用技术
作者: 孟坚
导师: 董逸生
关键词: 数据仓库,数据清洗,数据转换,清洗规则,交互式,领域知识,相似重复记录,数据分析
文献来源: 东南大学
发表年度: 2005
论文摘要: 针对现有数据清洗工具存在的交互性差、不易扩展和元数据管理不完善等问题,提出了一种新的基于规则的交互式数据清洗体系结构,解决了这些不足,提高了数据清洗的效率。并给出了其中若干关键技术的解决方案。采用形式化语言表示清洗规则和领域知识,为实现自动化数据清洗奠定了基础。提出了一种新的交互式规则定义技术,即在样本数据上迭代定义清洗规则,既保证了所定义规则的质量,也提高了用户定义清洗规则的速度。并且阐述了清洗规则的实现方法。将数据清洗与已有的SEUETL工具相结合,使它们的转换功能和清洗功能相互补,既有强大的转换功能,也有很好的清洗能力。以往数据分析和转换清洗采用不同的软件,是两个独立的步骤,导致数据分析和转换清洗脱钩,给用户带来很多的不便。本框架将数据分析功能集成到数据清洗中,增强了清洗工具的功能。对数据分析和相似重复记录处理这两个模块,均采用基于专家系统的处理框架,以方便业务规则的表示和应用,并给出各自的推理算法。并使用改进的SNM算法作为相似重复记录处理的匹配算法和合并算法。另外,本文还就清洗工具所不可少的一部分——元数据管理,讨论了基于CWM标准的元数据管理模块的功能框架。
论文目录:
摘要
Abstract
第一章 引言
1.1 背景介绍
1.1.1 数据质量
1.1.2 数据清洗
1.2 研究现状
1.3 研究内容
第二章 基于规则的交互式数据清洗框架
2.1 数据清洗概念模型
2.2 数据清洗整体框架
2.3 各模块功能
第三章 领域知识和清洗规则
3.1 领域知识
3.2 清洗规则
3.2.1 清洗规则的表示
3.2.2 交互式规则定义
3.2.3 清洗规则的实现
第四章 数据分析
4.1 数据质量的评价方法
4.2 数据分析
4.2.1 数据分析框架
4.2.2 数据分析中的业务规则示例
4.2.3 数据质量元数据
第五章 相似重复记录的处理
5.1 算法基础
5.1.1 改进的SNM算法
5.1.2 Rete算法
5.2 相似重复记录处理框架
第六章 元数据管理模块
6.1 元数据
6.1.1 元数据定义
6.1.2 ETL和数据清洗中的元数据
6.2 元数据管理的特殊性
6.3 CWM标准与元数据交换
6.4 元数据管理模块功能框架
6.5 ETL和数据清洗中元数据管理示例
第七章 结语
致谢
参考文献
发布时间: 2007-06-11
参考文献
- [1].数据仓库设计和维护的研究与实践[D]. 赵燕.华中科技大学2005
- [2].基于数据仓库和OLAP技术的电信数据帐务统计及分析系统[D]. 杨卉.吉林大学2005
- [3].汽车销售系统数据仓库解决方案[D]. 李英俊.山东大学2005
- [4].三层体系结构数据仓库的工程化研究[D]. 杨继业.上海海运学院2002
- [5].在线数据整合技术的研究与设计[D]. 唐桥.电子科技大学2011
- [6].数据仓库中的数据清洗技术研究[D]. Hamed Ibrahim Housien(哈迈德).中南大学2013
- [7].通用ETL工具的研究与设计[D]. 孙安健.复旦大学2012
- [8].道路交通事故数据仓库的设计及相关应用研究[D]. 张帆.湖南大学2013
- [9].银行分行开放数据平台的设计与实现[D]. 刘婷.湖南大学2016
- [10].Feed流用户行为统计系统的设计与实现[D]. 王恒.山东大学2018
相关论文
- [1].数据清洗的若干关键技术研究[D]. 包从剑.江苏大学2007
- [2].基于Java规则引擎的动态数据清洗研究与设计[D]. 曹永亮.武汉理工大学2008
- [3].人工智能在数据清洗中的应用[D]. 陈扬.上海交通大学2006
- [4].数据仓库与数据挖掘中数据清洗的研究[D]. 张军鹏.华北电力大学(河北)2006
- [5].基于XML数据清洗的应用研究[D]. 谭亚竹.重庆大学2006
- [6].ETL过程中的数据清洗技术研究与应用[D]. 刘哲.沈阳航空工业学院2007
- [7].基于数据仓库的数据清洗技术研究[D]. 杨宏娜.河北工业大学2006
- [8].数据清洗算法的研究与应用[D]. 周奕辛.青岛大学2005
- [9].数据清洗技术的研究及其应用[D]. 梁文斌.苏州大学2005
- [10].基于数据仓库的数据清洗方法研究[D]. 周芝芬.东华大学2004
标签:数据仓库论文; 数据清洗论文; 数据转换论文; 清洗规则论文; 交互式论文; 领域知识论文; 相似重复记录论文; 数据分析论文;