论文摘要
随着信息技术的发展,数据仓库的应用越来越广泛,数据仓库中的数据源包括各种异构的可操作的外部数据库和其它的外部数据。数据源中可能包含噪声数据、空缺数据、重复数据和不一致数据,这对数据分析将产生不良后果。因此,如何预处理数据对于提高数据质量以及数据分析结果的正确有效性有着重大的影响。本文主要针对数据预处理及其关键技术进行研究与实践,介绍了作为数据预处理应用环境的数据仓库、数据挖掘的研究背景和发展现状,重点分析现有数据清理与数据转换算法的优缺点。在此基础上提出了改进的算法,以及采用此算法的XSLT数据转换方法;并且针对转化后的XML数据,特别是XML相似重复数据进行数据清理,提出了基于长度过滤和树的上下限的树编辑距离算法。为了保证数据仓库的数据不会意外丢失并规范元数据的管理,提出了引入数据缓存区与元数据仓库的数据预处理模型的理论和方法。将提出的改进算法应用到改进的数据预处理模型中,设计了一个集转换器、清理器、元数据抽取器、数据缓存区于一体的数据预处理模型,使“脏数据”通过这个预处理模型的处理最终可以得到干净、统一、完整的数据。最后,根据部队演习决策分析的需要,将提出的数据预处理模型应用到基于实兵演习的XML数据仓库中,提高了数据仓库中的数据质量。
论文目录
摘要Abstract第一章 绪论1.1 论文选题背景和研究意义1.2 研究现状1.3 本文研究内容及组织结构第二章 数据仓库相关理论2.1 数据仓库与数据预处理2.2 数据挖掘与数据预处理2.3 元数据与数据预处理2.4 XML概述2.5 本章小结第三章 数据预处理技术3.1 数据预处理关键步骤3.2 数据清理使用的方法3.3 自动检测属性错误的方法3.4 数据转换的方法3.5 数据集成3.6 数据归约3.7 本章小结第四章 数据转换与数据清理技术研究4.1 改进的数据预处理模型4.1.1 数据缓存区4.1.2 元数据仓库4.1.3 数据预处理模型4.2 XML数据预处理4.2.1 数据转换4.2.2 数据清理4.3 本章小结第五章 基于实兵演习XML数据仓库的数据预处理模型设计5.1 应用背景5.2 源数据中存在的问题5.3 数据预处理模型的框架结构和操作流程5.3.1 数据预处理模型的框架结构5.3.2 预处理模型的操作流程5.4 模型的优缺点5.5 本章小结第六章 总结参考文献作者简历 攻读硕士学位期间完成的主要工作致谢
相关论文文献
标签:数据仓库论文; 数据预处理论文; 数据缓存区论文; 元数据仓库论文; 数据清理论文; 数据转换论文;