Print

XML数据仓库的数据预处理研究与应用

论文摘要

随着信息技术的发展,数据仓库的应用越来越广泛,数据仓库中的数据源包括各种异构的可操作的外部数据库和其它的外部数据。数据源中可能包含噪声数据、空缺数据、重复数据和不一致数据,这对数据分析将产生不良后果。因此,如何预处理数据对于提高数据质量以及数据分析结果的正确有效性有着重大的影响。本文主要针对数据预处理及其关键技术进行研究与实践,介绍了作为数据预处理应用环境的数据仓库、数据挖掘的研究背景和发展现状,重点分析现有数据清理与数据转换算法的优缺点。在此基础上提出了改进的算法,以及采用此算法的XSLT数据转换方法;并且针对转化后的XML数据,特别是XML相似重复数据进行数据清理,提出了基于长度过滤和树的上下限的树编辑距离算法。为了保证数据仓库的数据不会意外丢失并规范元数据的管理,提出了引入数据缓存区与元数据仓库的数据预处理模型的理论和方法。将提出的改进算法应用到改进的数据预处理模型中,设计了一个集转换器、清理器、元数据抽取器、数据缓存区于一体的数据预处理模型,使“脏数据”通过这个预处理模型的处理最终可以得到干净、统一、完整的数据。最后,根据部队演习决策分析的需要,将提出的数据预处理模型应用到基于实兵演习的XML数据仓库中,提高了数据仓库中的数据质量。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 论文选题背景和研究意义
  • 1.2 研究现状
  • 1.3 本文研究内容及组织结构
  • 第二章 数据仓库相关理论
  • 2.1 数据仓库与数据预处理
  • 2.2 数据挖掘与数据预处理
  • 2.3 元数据与数据预处理
  • 2.4 XML概述
  • 2.5 本章小结
  • 第三章 数据预处理技术
  • 3.1 数据预处理关键步骤
  • 3.2 数据清理使用的方法
  • 3.3 自动检测属性错误的方法
  • 3.4 数据转换的方法
  • 3.5 数据集成
  • 3.6 数据归约
  • 3.7 本章小结
  • 第四章 数据转换与数据清理技术研究
  • 4.1 改进的数据预处理模型
  • 4.1.1 数据缓存区
  • 4.1.2 元数据仓库
  • 4.1.3 数据预处理模型
  • 4.2 XML数据预处理
  • 4.2.1 数据转换
  • 4.2.2 数据清理
  • 4.3 本章小结
  • 第五章 基于实兵演习XML数据仓库的数据预处理模型设计
  • 5.1 应用背景
  • 5.2 源数据中存在的问题
  • 5.3 数据预处理模型的框架结构和操作流程
  • 5.3.1 数据预处理模型的框架结构
  • 5.3.2 预处理模型的操作流程
  • 5.4 模型的优缺点
  • 5.5 本章小结
  • 第六章 总结
  • 参考文献
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/f5deceef5fc557054e11051f.html