论文摘要
在现代企业中,由于信息来源的多样化及企业中已存在大量的异构数据,传统的信息集成系统并不能用一种标准化的数据格式来进行交互。由于XML语言具有良好的数据组织形式、灵活的扩展性、数据的分离性及资源的开放性四个特点,使得以XML为基础建立企业信息集成平台成为信息技术发展的一种必然趋势。然而,在集成过程中难免会遇到各种类型的“脏数据”,利用包含“脏数据”的集成数据可能不会产生正确的决策分析结果。因此,信息集成系统需要功能强大的数据清洗工具来检测并消除上述“脏数据”,最终为分析决策支持提供正确一致的信息。本文主要的研究工作可概括为以下几个方面:第一,在分析XML与信息集成相融合的优势的基础上,提出了一种利用元数据支持进行信息集成的框架,利用解析器和Wrapper技术向用户提供统一的查询接口和数据视图,借助于元数据的支持来判断查询操作的有效性。较好地解决了信息集成过程中透明访问、联合查询和数据转换等问题,实现了多个异构数据源的快捷查询和快速结果展现。第二,在分析现有检测技术基础上,提出了一种基于置信区间的偏离群数据检测方法。该方法所处理的数据不需与时间相关并可快速识别和检测出大数据量中的“脏数据”。实验结果表明该方法能有效解决无规则状态下的偏离群数据的检测,并在实际应用中取得了良好的效果。第三,为了将理论应用于实践,在一个应用实例中进行实验模拟。本实验构建了特种设备整合系统的体系结构,设计了数据仓库中元数据表和数据仓库的事实表和维表。数据从数据源中抽取,经过清洗和转换,以达到在集成系统中找到所存在的数据质量问题,并找到良好的方法解决。
论文目录
摘要Abstract第1章 绪论1.1 问题提出1.1.1 信息集成1.1.2 数据质量1.2 国内外研究现状1.3 论文主要工作第2章 异构数据源信息集成和数据质量基础2.1 异构数据源集成2.1.1 定义2.1.2 异构数据源的分类2.1.3 关键技术2.2 信息集成2.2.1 信息集成的体系结构2.2.2 信息集成的方式2.2.3 信息集成的方法2.3 数据质量2.3.1 数据质量的概念2.3.2 数据质量的评价标准2.3.3 数据质量问题的分类2.4 小结第3章 异构数据源的信息集成3.1 XML概述3.1.1 XML的定义3.1.2 XML的特点和目标3.1.3 应用可行性3.2 基于XML的信息集成3.2.1 传统的基于XML 信息集成框架3.2.2 改进后基于XML 的信息集成框架3.2.3 基于XML信息集成的查询流程3.3 数据转化方法3.4 信息展现的实现3.4.1 数据抽取3.4.2 作为交换的XML 文档3.4.3 XML数据集成3.4.4 信息发布3.5 小结第4章 集成过程中的偏离群数据的检测4.1 检测原理4.2 检测策略4.2.1 样本的初步抽选4.2.2 利用择优选择算法选取可信样本4.2.3 确定置信区间及检测4.3 检测算法描述4.4 处理“脏数据”4.4.1 数据填充4.4.2 区间提示4.4.3 查找填充4.5 实验4.5.1 实验验证4.5.2 有效性和可行性验证4.6 小结第5章 机电类特种设备信息集成5.1 系统建设背景5.2 系统设计5.2.1 遗留系统现状5.2.2 系统方案设计5.2.3 系统体系结构5.3 数据仓库设计5.3.1 逻辑模型设计5.3.2 事实表和维表设计5.3.3 元数据表设计5.4 机电类特种设备信息集成实验5.4.1 实验的环境5.4.2 实验的方法5.4.3 数据质量问题及解决方法5.4.4 实验分析5.5 小结结论参考文献致谢攻读硕士期间发表(含录用)的学术论文
相关论文文献
标签:信息集成论文; 脏数据论文; 置信区间论文; 偏离群数据论文;