基于XML的异构数据集成研究

基于XML的异构数据集成研究

论文摘要

随着计算机网络的飞速发展和信息化建设的大力推进,各种网络中可供利用的信息总量正以惊人的速率增长。但这些为不同应用服务的信息都存储在许多不同的数据源之中,其数据内容、数据格式和数据质量千差万别,且其管理系统也各不相同。为更有效地利用这些信息,需要对多个分布、异构和自治的数据源中的信息进行集成,向用户隐藏这些差异,提供给用户一个统一和透明的数据访问接口,同时还需要保持数据在不同系统上的完整性和一致性。因此,在信息集成过程中,如何有效解决这些差异是信息集成研究与应用领域所面临的一大挑战。近年来,随着XML这样一种文档结构描述语言的不断发展和壮大,以XML及其相关技术为基础的半结构化信息表示技术正在影响着信息技术领域和计算机技术领域发生着重大的变化,本文探讨了如何运用XML技术,集成结构化和非结构化的问题。论文从以下几个方面的内容进行了阐述:(1)对集成的数据进行了分类,一类是结构化数据,另一类是非结构化的数据。在这里我们把半结构化的数据看做是非结构化数据的特殊情况。本文提出一种对数据进行分类集成的策略,在Mediator/Wrapper的方式下,单独构建一个数据集成池,专门用来整合集成结构化数据。(2)详细论述了XHDIS信息集成系统原型的各个功能模块和系统构架。(3)对信息集成中的相关技术进行了深入分析,如模式集成及公共数据模型和包装器(Wrapper)模板生成等。(4)由于采用分类集成的策略,因而在非结构化数据的处理,本文的重点放在了如何通过定制非结构化数据的提取规制,通过转化成XML数据的形式来进行集成。重点讨论了以HTML/XML的Web页面的提取规则。最后在总结全文的基础上,结合其它与集成系统相关技术的发展趋势,提出了若干有待进一步深入研究和探讨的问题。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 课题背景
  • 1.2 异构数据集成的主要问题
  • 1.3 国内外相关研究情况
  • 1.3.1 异构数据源集成系统
  • 1.3.2 公共数据模型
  • 1.4 论文研究内容
  • 1.5 论文组织结构
  • 2 XML 技术基础
  • 2.1 XML 简介
  • 2.2 XML 模式
  • 2.2.1 DTD
  • 2.2.2 XML Schema
  • 2.3 XML 解析器
  • 2.3.1 DOM
  • 2.3.2 SAX
  • 2.4 XML 查询语言XQuery
  • 2.5 本章小结
  • 3 XHDIS 系统架构分析
  • 3.1 三种集成方式简介
  • 3.1.1 联邦数据库
  • 3.1.2 数据仓库
  • 3.1.3 Mediation
  • 3.2 XHDIS 集成总体框架结构
  • 3.2.1 XHDIS 系统的集成平台简介
  • 3.2.2 XHDIS 系统原型的特点
  • 3.3 查询处理
  • 3.3.1 查询处理概述
  • 3.3.2 两种查询分解方式
  • 3.4 本章小结
  • 4 集成相关技术研究
  • 4.1 分类集成
  • 4.2 公共数据模型
  • 4.2.1 引言
  • 4.2.2 XML Schema 模型建立过程
  • 4.3 模式集成
  • 4.3.1 命名冲突
  • 4.3.2 表结构冲突
  • 4.3.3 属性冲突
  • 4.3.4 语义冲突
  • 4.3.5 结构与属性冲突
  • 4.4 数据池
  • 4.4.1 代理键和数据颗粒
  • 4.4.2 集成步骤
  • 4.5 本章小结
  • 5 包装器的设计
  • 5.1 数据库包装器
  • 5.1.1 数据库连接接口设计
  • 5.1.2 查询模板
  • 5.2 Web 包装器
  • 5.2.1 Web 信息抽取概述
  • 5.2.2 基于XML 的Web 信息抽取
  • 5.3 本章小结
  • 6 总结与展望
  • 6.1 总结
  • 6.2 后续工作展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].基于特征提取的分类集成在脾虚证诊断中的应用[J]. 计算机应用与软件 2010(03)
    • [2].基于多视图分类集成的高铁工况识别[J]. 山东大学学报(工学版) 2017(01)
    • [3].一种新的模糊多球分类算法及其集成方法[J]. 计算机科学 2008(06)

    标签:;  ;  ;  ;  ;  

    基于XML的异构数据集成研究
    下载Doc文档

    猜你喜欢