基于模式映射的异构数据集成模型研究

基于模式映射的异构数据集成模型研究

论文摘要

随着各种企业级系统的快速发展和异构框架的不断丰富,将各种异构系统进行的集成就成为当前数据库领域的一个热点问题。要实现系统集成就首先进行数据集成,而基于本体的数据集成在各种数据集成方法中脱颖而出,成为目前数据集成领域中的重要研究点。一般情况下,由于数据源的异构性和多样性,数据集成中会存在各种各样的冲突,比如常见的命名冲突,单位冲突,顺序冲突等等,所以必须首先发现冲突,然后按照人工的或者自动的冲突消除规则对冲突进行处理。鉴于上述考虑,本文利用本体的语义性,提出了一个基于模式映射的数据集成模型,该模型构建于映射规则(Rule-based),并且能够自动发现和消除特定的冲突(Conflict-solved),所以将其命名为RCM。本文首先对RCM进行建模,该模型包含了局部概念集、全局概念集、映射集、冲突集和约束集,其中后三者是该模型的核心。我们用映射文档的形式来对后三者进行描述,然后在此基础上提出了一个冲突发现和消除的算法,最后阐述了RCM框架的实现。在数据源描述方面,每个局部数据源由它自己的本体来描述语义。但是为了使每个源本体之间能够相互比较,在最上层建了一个共享的词汇集,共享的词汇集包含了领域内基本的术语,即构建了一个代表全局数据源的本体,这样就涵盖了RCM模型中的局部概念集和全局概念集。在此基础上,用OWL自定义的映射文档对局部数据源与全局数据源之间的映射关系进行描述,从而将RCM中的映射集、冲突集和约束集的信息记录到映射文档中。本文研究了基于板映射模型的冲突消除算法和常用的查询重写算法,分析了它们的部分不足之处,提出了适合在RCM上进行冲突发现和消除的算法。在映射文档中自动发现冲突并判断冲突发生的子数据源及对应的属性,并同时在映射文档中进行修改。在查询重写的过程中,将借助该映射文档来消除以单位冲突和格式冲突为代表的数据冲突和以命名冲突为代表的语义冲突,从而保证查询结果的正确性。本文最后介绍了由RCM延伸出来的框架,具体包括用户接口、查询处理、文档处理和结果提取四大部分,结合GLAV、本体等技术的各自优势,提出了各部分可行的实现方式。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 主要工作
  • 第二章 RCM模型介绍
  • 2.1 映射方法
  • 2.1.1 GAV
  • 2.1.2 LAV
  • 2.1.3 GLAV
  • 2.1.4 RCM映射方法
  • 2.2 映射描述
  • 2.2.1 传统描述方法
  • 2.2.2 板映射文档
  • 2.3 RCM映射文档
  • 2.3.1 RCM数据源描述
  • 2.3.2 RCM本体转化
  • 2.4 RCM冲突描述
  • 2.4.1 冲突分类
  • 2.4.2 冲突初步描述
  • 第三章 RCM冲突发现与消除
  • 3.1 基于板映射模型的算法
  • 3.1.1 算法描述
  • 3.1.2 算法分析
  • 3.2 RCM中的冲突发现算法
  • 3.2.1 Detection算法
  • 3.2.2 算法分析
  • 3.3 RCM中的冲突消除算法
  • 3.3.1 关系查询重写算法
  • 3.3.2 半结构查询重写算法
  • 3.3.3 Solution算法
  • 3.3.4 算法分析
  • 3.4 实验分析
  • 第四章 RCM框架实现
  • 4.1 基本结构
  • 4.2 主要模块
  • 4.3 数据源注册与发布
  • 4.3.1 数据源注册
  • 4.3.2 数据源发布
  • 4.4 数据源描述
  • 4.4.1 数据源本体编辑
  • 4.4.2 数据源本体操作
  • 第五章 总结与展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    • [1].数据时代的大数据数据源垄断法律规范[J]. 网络空间安全 2019(12)
    • [2].乡村大数据源类型研究[J]. 当代农村财经 2020(02)
    • [3].单位名录库更新:互联网大数据源及其数据质量评估[J]. 统计研究 2017(01)
    • [4].一种基于数据源分解判定业务回归测试范围的分析方法[J]. 科技创新导报 2016(34)
    • [5].基于分层抽样的重叠深网数据源选择[J]. 软件学报 2017(05)
    • [6].数据源总线化布局解决方案[J]. 化工自动化及仪表 2015(03)
    • [7].基于用户反馈的深网数据源选择[J]. 小型微型计算机系统 2012(11)
    • [8].基于本体的单一产品数据源组织研究[J]. 中国制造业信息化 2011(01)
    • [9].高职图书馆数字参考咨询数据源建设研究[J]. 当代图书馆 2011(01)
    • [10].基于主题与概率模型的非合作深网数据源选择[J]. 软件学报 2017(12)
    • [11].基于数据源向图的数据库设计中数据关系的表示工具[J]. 计算机科学 2017(S1)
    • [12].基于真值发现的冲突数据源质量评价算法[J]. 浙江大学学报(工学版) 2015(02)
    • [13].动态多数据源的研究与实现[J]. 电脑学习 2010(03)
    • [14].高校社会科学用户数据源选择偏好研究[J]. 图书馆理论与实践 2018(12)
    • [15].基于真值发现的冲突数据源质量评价算法[J]. 浙江大学学报(工学版) 2015(01)
    • [16].信息技术在“数字油田”数据源建设中的基础作用分析[J]. 科技创新导报 2011(22)
    • [17].基于分布对象的大规模多数据源互操作机制[J]. 计算机科学 2008(10)
    • [18].一种基于休眠调度的数据源拥塞控制方法[J]. 计算机研究与发展 2015(08)
    • [19].基于主题模型的深层网数据源选择算法[J]. 计算机应用 2015(09)
    • [20].基于本体的专利数据源集成的研究及应用[J]. 计算机技术与发展 2009(07)
    • [21].高效的数据源选择方式[J]. 计算机科学与探索 2010(10)
    • [22].面向多数据源的数据清洗关键技术的研究[J]. 科技资讯 2009(01)
    • [23].浅析多数据源自动化报表的研究与开发[J]. 数字技术与应用 2020(01)
    • [24].多数据源招聘信息采集的爬虫系统实现[J]. 福建电脑 2019(11)
    • [25].异构专利数据源集成系统中查询的研究[J]. 计算机应用与软件 2010(08)
    • [26].分布数据源两级分类转换处理的技术研究[J]. 机械与电子 2017(03)
    • [27].面向医学领域实体关联检索的深网数据源选择[J]. 计算机工程与应用 2016(10)
    • [28].面向专利数据的多数据源集成与表达[J]. 魅力中国 2009(36)
    • [29].面向农民的问答系统数据源构建[J]. 农业图书情报学刊 2014(05)
    • [30].非合作结构化深网数据源摘要的动态更新[J]. 微电子学与计算机 2014(04)

    标签:;  ;  ;  ;  

    基于模式映射的异构数据集成模型研究
    下载Doc文档

    猜你喜欢