论文题目: 数据清洗技术的研究及其应用
论文类型: 硕士论文
论文专业: 计算机应用技术
作者: 梁文斌
导师: 孙涌
关键词: 数据仓库,数据清洗,过程描述语言,元数据管理中心
文献来源: 苏州大学
发表年度: 2005
论文摘要: 为了从业务系统积累的越来越多的事务数据中提取有用的信息,解决日趋加剧的数据丰富而信息贫乏的矛盾,数据仓库应运而生。而在数据仓库的构建过程中,数据质量是影响数据仓库成功与否进而影响到决策支持及趋势分析的重要因素。数据仓库频繁地从各式各样的源数据中装载和刷新,这些数据中不可避免地存在很多异常,这就要求数据进入数据仓库之前必须进行清洗。本文首先论述了数据质量的相关理论及其定义,进而分析了进入数据仓库之前进行数据清洗的必要性以及主要的数据清洗过程,同时阐述了当前数据清洗的各种理论框架及其应用的发展现状。然后,针对已有系统的不足,提出了一个数据清洗的框架模型及其部分实现。本文的重点是对可扩展可定制数据清洗框架的研究与设计。此框架集数据清洗/迁移为一体,使用基于XML 的过程描述语言对每个清洗过程进行定义,并利用元数据管理中心对清洗所需要的所有元数据进行统一存取。同时使用JAVA 与XML 进行开发,大大提高了其跨平台运行的能力,并可作为组件方便地集成到其他应用系统中去以实现数据清洗功能。文章最后也提出了系统存在的不足之处及今后需要研究改进的地方。
论文目录:
第一章 绪论
1.1 研究背景
1.2 数据仓库的相关概念
1.3 数据质量与数据清洗
1.4 本文的工作
第二章 数据清洗相关理论研究
2.1 数据质量的定义
2.2 数据质量问题
2.3 数据清洗定义
2.4 数据清洗的过程
2.4.1 元素化
2.4.2 标准化
2.4.3 校验
2.4.4 匹配
2.4.5 档案化
2.5 数据清洗的评估
2.6 现有的数据清洗工具及主要不足
第三章 数据清洗框架的设计
3.1 简介
3.2 系统整体框架
3.3 数据清洗的任务模型
3.3.1 任务层次模型
3.3.2 任务描述模型
3.4 系统的主要特点
3.5 开发平台的选择
第四章 数据清洗框架的技术重点
4.1 数据源分析
4.2 数据抽取
4.3 执行数据清洗/转化
4.3.1 基本流程
4.3.2 数据标准化
4.3.3 数据解析
4.3.4 数据增强
4.3.5 重复记录的去除
4.4 系统构建
4.4.1 使用Ant 自动编译
4.4.2 Build.xml
4.5 部分示例
第五章 总结与展望
参考文献
攻读学位期间公开发表论文
感谢
详细摘要
发布时间: 2006-03-24
参考文献
- [1].基于Memcached的数据清洗系统设计与实现[D]. 邱锋兴.厦门大学2017
- [2].规则引擎驱动下的国土空间大数据清洗方法研究[D]. 孙乐乐.云南师范大学2018
- [3].建筑节能气候数据清洗方法研究[D]. 卜亮亮.西安建筑科技大学2018
- [4].数据清洗在多雷达数据融合算法中的研究与应用[D]. 郑雅诗.北京邮电大学2018
- [5].劣质数据按需清洗的关键技术研究[D]. 齐志鑫.哈尔滨工业大学2018
- [6].基于RFID中间件的数据清洗算法研究及系统实现[D]. 沈玮玮.南京邮电大学2017
- [7].面向电网大数据的数据清洗子系统设计与实现[D]. 雷雨.北京邮电大学2018
- [8].移动综资系统数据清洗方案的设计与实现[D]. 胡代国.山东师范大学2018
- [9].面向物流仓储的RFID系统数据清洗策略研究[D]. 吕群武.武汉理工大学2015
- [10].基于RFID中间件的数据清洗算法研究[D]. 王冠凯.武汉理工大学2015
相关论文
- [1].数据清洗的若干关键技术研究[D]. 包从剑.江苏大学2007
- [2].人工智能在数据清洗中的应用[D]. 陈扬.上海交通大学2006
- [3].数据仓库与数据挖掘中数据清洗的研究[D]. 张军鹏.华北电力大学(河北)2006
- [4].基于规则的交互式数据清洗技术[D]. 孟坚.东南大学2005
- [5].ETL过程中的数据清洗技术研究与应用[D]. 刘哲.沈阳航空工业学院2007
- [6].基于数据仓库的数据清洗技术研究[D]. 杨宏娜.河北工业大学2006
- [7].XML与数据清洗的研究[D]. 金煌.华中科技大学2004
- [8].数据清洗算法的研究与应用[D]. 周奕辛.青岛大学2005
- [9].基于聚类模式的数据清洗技术[D]. 唐懿芳.广西师范大学2003
- [10].基于数据仓库的数据清洗方法研究[D]. 周芝芬.东华大学2004