论文题目: 数据清理关键技术及其软件平台的研究与应用
论文类型: 博士论文
论文专业: 航空宇航制造工程
作者: 陈伟
导师: 丁秋林
关键词: 信息系统,数据质量,数据清理,规则库,算法库,软件平台
文献来源: 南京航空航天大学
发表年度: 2005
论文摘要: 我国目前正在大力推广信息技术,实施各行各业的信息化工程,如代表制造业信息化潮流的 ERP(Enterprise Resource Planning,企业资源计划)系统,电子政务系统,医疗保险信息系统,以及其它各类形式的信息系统。随着信息化的进展,企业积累了大量的电子数据,这些数据非常珍贵。用户录入错误、企业合并以及企业环境随着时间的推移而改变等因素,都会影响数据的质量。为了更好地发挥信息化的作用,必须提高信息系统的数据质量。显见,研究信息化建设中的数据清理问题具有理论和应用价值。针对这一课题,论文包括如下几个方面的研究工作: 论述了数据清理研究的重要性和紧迫性,分析了数据清理的研究现状,指出了目前数据清理研究中所存在的问题。 从数据质量的三个重要因素出发,研究了单数据源中数据清理的关键技术,包括:相似重复记录清理、不完整数据清理、错误数据清理。 对于相似重复记录的清理,给出了一种综合的清理方法。为了提高该方法的检测精度和检测效率,从两个方面对该方法的关键环节进行了改进:第一个改进是在相似重复记录检测中,根据具体的业务系统,采用等级法为记录各字段指定合适的权重,从而提高了相似重复记录的检测精度;第二个改进是提出了一种提高相似重复记录检测效率的方法,该方法采用长度过滤方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了相似重复记录的检测效率。此外,构造了合适的实验环境,做了大量的检测实验,翔实的实验结果验证了长度过滤方法的科学性及有效性。 对于不完整数据的清理,提出了一种清理方案,该方案首先分析数据的可用性;然后删除不可用记录;最后,对可用记录通过选用合适的方法来处理该记录的丢失值,从而完成数据源中不完整数据的清理。 针对数据源中出现的错误数据,研究了如何采用孤立点检测和业务规则这两种方法来检测这些错误数据,多种检测方法大大提高了错误数据清理的综合效果。 在研究了单数据源数据清理的基础上,又研究了多数据源集成中的数据清理问题,主要内容有:研究了多数据源集成中数据标准化的方法;结合相似重复记录清理的研究,给出了一种相似重复实体检测方法,有效地解决了多数据源集成中相似重复实体的清理问题;提出了一种交互式数据迁移方法,该方法把数据迁移和数据清理紧密地结合在一起,不仅可灵活、准确地完成多数据源集成中的数据迁移,还可保证数据迁移后新系统的数据质量。 在结构化数据清理研究的基础上,针对半结构化数据 XML 在数据清理中的重要性,提出了一种有效的 XML 相似重复数据清理方法,并给出了一种优化的基于树编辑
论文目录:
第一章 绪论
1.1 引言
1.2 数据质量
1.2.1 数据质量概念及分类
1.2.2 单数据源数据质量问题
1.2.3 多数据源集成时数据质量问题
1.3 数据清理内涵及原理
1.4 数据清理研究现状分析
1.4.1 国外研究动态
1.4.2 国内研究动态
1.4.3 存在的问题
1.5 数据清理软件平台的意义
1.6 论文研究目的与内容安排
第二章 单数据源中相似重复记录的清理
2.1 引言
2.2 相似重复记录清理的相关研究
2.3 相似重复记录的清理方法
2.3.1 相似重复记录清理方法总体描述
2.3.2 记录排序
2.3.3 记录相似检测
2.3.4 相似重复记录检测算法
2.3.5 相似重复记录的合并/清除
2.4 相似重复记录检测精度提高方法
2.4.1 等级法的使用
2.4.2 等级转变成权重的方法
2.4.3 利用权重提高检测精度
2.5 相似重复记录检测效率提高方法
2.5.1 提高检测效率的方法分析
2.5.2 长度过滤方法
2.6 实验准备—记录生成器的研制
2.6.1 记录生成器的作用
2.6.2 记录生成器的原理及实现
2.7 改进算法检测效果的实验验证
2.7.1 度量相似重复记录检测效果的标准
2.7.2 长度过滤方法有效性的实验检测
2.7.3 实验结果分析
2.8 本章小结
第三章 单数据源中不完整数据的清理
3.1 引言
3.2 不完整数据的清理方法
3.2.1 不完整数据清理方法总体描述
3.2.2 不完整数据的可用性检测
3.2.3 缺失字段值的处理
3.3 采用K-最临近算法估算缺失字段值
3.3.1 K-NN 算法的特点
3.3.2 采用K-NN 算法估算缺失字段值的过程
3.3.3 K-NN 算法中距离函数的分析
3.3.4 采用距离权重优化K-NN 算法
3.4 本章小结
第四章 单数据源中错误数据的清理
4.1 引言
4.2 基于孤立点检测的错误数据清理
4.2.1 基于孤立点检测的错误数据清理方法
4.2.2 孤立点检测的相关方法
4.2.3 基于模糊集理论的孤立点检测
4.3 基于业务规则的错误数据清理
4.3.1 业务规则的重要性
4.3.2 基于业务规则的错误数据清理方法
4.3.3 业务规则
4.4 错误数据的处理
4.5 本章小结
第五章 多数据源集成中的数据清理
5.1 引言
5.2 信息化建设中多数据源集成问题的分类
5.3 数据标准化
5.3.1 数据标准化的重要性
5.3.2 数据标准化的方法
5.4 多数据源集成中相似重复实体的清理
5.4.1 相似重复实体清理的必要性
5.4.2 相似重复实体的清理方法
5.5 多数据源集成中的数据迁移
5.5.1 数据迁移概述
5.5.2 交互式数据迁移方法
5.5.3 交互式数据迁移的特点
5.6 本章小结
第六章 XML 相似重复数据的清理
6.1 引言
6.2 XML 的相关知识
6.3 XML 相似重复数据的清理方法
6.4 XML 相似重复数据检测
6.4.1 树编辑距离定义
6.4.2 树编辑距离计算
6.4.3 基于树编辑距离的相似检测
6.5 XML 相似重复数据检测算法的优化
6.5.1 树编辑距离下限
6.5.2 树编辑距离上限
6.5.3 优化的XML 相似重复数据检测算法
6.6 本章小结
第七章 数据清理软件平台 DCSP 的研究与应用
7.1 引言
7.2 DCSP 的原理
7.2.1 DCSP 的功能及清理方法
7.2.2 DCSP 的清理过程
7.2.3 DCSP 的规则库与算法库
7.2.4 DCSP 的特点
7.3 DCSP 的实现
7.3.1 DCSP 的开发方法
7.3.2 DCSP 的主要功能界面
7.4 DCSP 的应用
7.4.1 DCSP 在医疗保险信息系统中的应用
7.4.2 DCSP 在制造业信息化中的应用
7.5 本章小结
致谢
攻读博士学位期间发表的主要论文
攻读博士学位期间主要参与的科研工作
参考文献
发布时间: 2005-07-08
参考文献
- [1].ETL若干关键技术研究[D]. 张旭峰.复旦大学2006
- [2].基于语义关联的重复数据清理技术研究[D]. 黄莉.华中科技大学2011
- [3].面向数据集成的数据清理关键技术研究[D]. 刘杰.中国科学技术大学2010
相关论文
- [1].数据集成技术若干问题的研究[D]. 王欣.上海交通大学2010
- [2].面向数据集成的数据清理关键技术研究[D]. 刘杰.中国科学技术大学2010
- [3].基于语义关联的重复数据清理技术研究[D]. 黄莉.华中科技大学2011
- [4].基于元数据的综合数据管理与信息共享[D]. 辜寄蓉.成都理工大学2003
- [5].面向Agent的敏捷信息系统关键技术及应用研究[D]. 凌兴宏.南京航空航天大学2005
- [6].虚拟企业信息系统若干关键技术研究[D]. 阎志华.南京航空航天大学2005
- [7].基于Web的制造业电子商务平台关键技术的研究与应用[D]. 周娜.南京航空航天大学2005
- [8].关联规则挖掘方法的研究及应用[D]. 刘亚波.吉林大学2005
- [9].面向复杂数据源的数据抽取模型和算法研究[D]. 邓绪斌.复旦大学2005
- [10].ETL若干关键技术研究[D]. 张旭峰.复旦大学2006