随着信息技术的发展,数据仓库的应用越来越广泛,数据仓库中的数据源包括各种异构的可操作的外部数据库和其它的外部数据。数据源中可能包含噪声数据、空缺数据、重复数据和不一致数据,这对数据分析将产生不良后果。因此,如何预处理数据对于提高数据质量以及数据分析结果的正确有效性有着重大的影响。本文主要针对数据预处理及其关键技术进行研究与实践,介绍了作为数据预处理应用环境的数据仓库、数据挖掘的研究背景和发展现状,重点分析现有数据清理与数据转换算法的优缺点。在此基础上提出了改进的算法,以及采用此算法的XSLT数据转换方法;并且针对转化后的XML数据,特别是XML相似重复数据进行数据清理,提出了基于长度过滤和树的上下限的树编辑距离算法。为了保证数据仓库的数据不会意外丢失并规范元数据的管理,提出了引入数据缓存区与元数据仓库的数据预处理模型的理论和方法。将提出的改进算法应用到改进的数据预处理模型中,设计了一个集转换器、清理器、元数据抽取器、数据缓存区于一体的数据预处理模型,使“脏数据”通过这个预处理模型的处理最终可以得到干净、统一、完整的数据。最后,根据部队演习决策分析的需要,将提出的数据预处理模型应用到基于实兵演习的XML数据仓库中,提高了数据仓库中的数据质量。
本文来源: https://www.lw50.cn/article/f5deceef5fc557054e11051f.html