异构数据源信息集成的数据质量研究

异构数据源信息集成的数据质量研究

论文摘要

在现代企业中,由于信息来源的多样化及企业中已存在大量的异构数据,传统的信息集成系统并不能用一种标准化的数据格式来进行交互。由于XML语言具有良好的数据组织形式、灵活的扩展性、数据的分离性及资源的开放性四个特点,使得以XML为基础建立企业信息集成平台成为信息技术发展的一种必然趋势。然而,在集成过程中难免会遇到各种类型的“脏数据”,利用包含“脏数据”的集成数据可能不会产生正确的决策分析结果。因此,信息集成系统需要功能强大的数据清洗工具来检测并消除上述“脏数据”,最终为分析决策支持提供正确一致的信息。本文主要的研究工作可概括为以下几个方面:第一,在分析XML与信息集成相融合的优势的基础上,提出了一种利用元数据支持进行信息集成的框架,利用解析器和Wrapper技术向用户提供统一的查询接口和数据视图,借助于元数据的支持来判断查询操作的有效性。较好地解决了信息集成过程中透明访问、联合查询和数据转换等问题,实现了多个异构数据源的快捷查询和快速结果展现。第二,在分析现有检测技术基础上,提出了一种基于置信区间的偏离群数据检测方法。该方法所处理的数据不需与时间相关并可快速识别和检测出大数据量中的“脏数据”。实验结果表明该方法能有效解决无规则状态下的偏离群数据的检测,并在实际应用中取得了良好的效果。第三,为了将理论应用于实践,在一个应用实例中进行实验模拟。本实验构建了特种设备整合系统的体系结构,设计了数据仓库中元数据表和数据仓库的事实表和维表。数据从数据源中抽取,经过清洗和转换,以达到在集成系统中找到所存在的数据质量问题,并找到良好的方法解决。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 问题提出
  • 1.1.1 信息集成
  • 1.1.2 数据质量
  • 1.2 国内外研究现状
  • 1.3 论文主要工作
  • 第2章 异构数据源信息集成和数据质量基础
  • 2.1 异构数据源集成
  • 2.1.1 定义
  • 2.1.2 异构数据源的分类
  • 2.1.3 关键技术
  • 2.2 信息集成
  • 2.2.1 信息集成的体系结构
  • 2.2.2 信息集成的方式
  • 2.2.3 信息集成的方法
  • 2.3 数据质量
  • 2.3.1 数据质量的概念
  • 2.3.2 数据质量的评价标准
  • 2.3.3 数据质量问题的分类
  • 2.4 小结
  • 第3章 异构数据源的信息集成
  • 3.1 XML概述
  • 3.1.1 XML的定义
  • 3.1.2 XML的特点和目标
  • 3.1.3 应用可行性
  • 3.2 基于XML的信息集成
  • 3.2.1 传统的基于XML 信息集成框架
  • 3.2.2 改进后基于XML 的信息集成框架
  • 3.2.3 基于XML信息集成的查询流程
  • 3.3 数据转化方法
  • 3.4 信息展现的实现
  • 3.4.1 数据抽取
  • 3.4.2 作为交换的XML 文档
  • 3.4.3 XML数据集成
  • 3.4.4 信息发布
  • 3.5 小结
  • 第4章 集成过程中的偏离群数据的检测
  • 4.1 检测原理
  • 4.2 检测策略
  • 4.2.1 样本的初步抽选
  • 4.2.2 利用择优选择算法选取可信样本
  • 4.2.3 确定置信区间及检测
  • 4.3 检测算法描述
  • 4.4 处理“脏数据”
  • 4.4.1 数据填充
  • 4.4.2 区间提示
  • 4.4.3 查找填充
  • 4.5 实验
  • 4.5.1 实验验证
  • 4.5.2 有效性和可行性验证
  • 4.6 小结
  • 第5章 机电类特种设备信息集成
  • 5.1 系统建设背景
  • 5.2 系统设计
  • 5.2.1 遗留系统现状
  • 5.2.2 系统方案设计
  • 5.2.3 系统体系结构
  • 5.3 数据仓库设计
  • 5.3.1 逻辑模型设计
  • 5.3.2 事实表和维表设计
  • 5.3.3 元数据表设计
  • 5.4 机电类特种设备信息集成实验
  • 5.4.1 实验的环境
  • 5.4.2 实验的方法
  • 5.4.3 数据质量问题及解决方法
  • 5.4.4 实验分析
  • 5.5 小结
  • 结论
  • 参考文献
  • 致谢
  • 攻读硕士期间发表(含录用)的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    异构数据源信息集成的数据质量研究
    下载Doc文档

    猜你喜欢