综合信息集成及查询优化的研究

综合信息集成及查询优化的研究

论文摘要

随着Internet技术的发展,Web上各种在线信息源不断涌现,这些信息源种类繁多,结构各异。在互联网这样一个动态的环境中,各信息源不断地发生着变化,在这样一个动态、异构、开放的环境下快速、准确地获取信息是十分困难的。因此,研究信息集成系统,为用户提供一个访问异构数据源的统一接口有着非常重要的意义。在这种背景下,本文对信息集成系统的主要技术进行了深入的研究,具体研究工作如下: 信息集成系统体系结构是研究系统的组成模块以及各模块之间关系的。本文对目前几种典型的信息集成系统体系结构进行了分析,总结了这些体系结构的优点和不足。在对实际的信息集成工作中遇到的问题及其他相关需求进行分析的基础上,提出了综合信息集成系统体系结构。该体系结构既考虑对已有投资的保护,又考虑对不断生成的新数据的有效处理;既考虑对传统数据库中的数据和XML数据的处理,又考虑信息检索和辅助决策的需求。是一个面向目前大多数企业的综合信息集成系统。 模式映射的建立是信息集成系统的重要环节之一。本文提出了基于划分的映射模式发现框架——PBMSDF(Partition Based Mapping Schema Discovery Framework)。Dhamankar等提出了iMAP框架,该框架采用搜索器集合和Beam Search的方法,可以自动发现1:1映射、1:n和n:1的复杂映射,但是存在以下不足:一是不能发现m:n的复杂映射;二是该框架需要对属性及属性值实例进行分析,导致系统开销很大;三是对于Web信息集成,获取属性值的数据实例有时是不可能的,因此该框架不能用于Web信息集成。He等提出了DCM(Dual Correlation Mining)框架,该框架采用对属性在模式中的分布进行分析发现属性之间相关度的方法来发现属性之间的映射关系,可以解决iMAP框架中存在的问题,仍存在以下不足:一是由于该框架采用的相关度衡量标准对部分属性的评价结果不准确,导致发现结果准确性不高;二是该框架中采用的AprioriCorrmining和DualCorrelationmining挖掘算法在由相关e项集生成相关e+1项集的过程中,将整个属性集合中的每一个属性添加到相关e项集中构成候选相关e+1项集,然后再判断该e+1项集是否相关,增加了许多不必要的计算,致使搜索空间过大,算法的效率较低。本文提出了比较适合于衡量属性之间相关度的C-衡量标准,并在PBMSDF框架中采用了该标准以提高发现结果的准确度;提出了基于划分和栈的模式映射发现算法,理论分析和实验结果均证明,该框架较iMAP和DCM具有较高的性能和较好的模式发现能力。 XML成为目前Web上数据表示和信息交换的标准,处理XML数据是集成系统的功能之一,XML查询的效率将直接影响集成系统的性能。本文提出了一种基于递归模

论文目录

  • 独创性说明
  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 工作背景
  • 1.2 本文的主要贡献
  • 1.3 论文结构
  • 2 综合信息集成体系结构
  • 2.1 信息集成系统体系结构研究现状
  • 2.2 综合信息集成体系结构
  • 2.3 基于遗传算法的数据分布方法
  • 2.3.1 相关工作介绍
  • 2.3.2 数据分布模型
  • 2.3.3 基于遗传算法的数据分布算法
  • 2.3.4 基于遗传算法的数据分布实例
  • 2.3.5 基于遗传算法的数据分布实验
  • 2.4 本章小结
  • 3 集成系统模式映射
  • 3.1 引言
  • 3.2 相关工作分析
  • 3.3 PBMSDF框架体系结构
  • 3.4 基于划分和栈的模式映射发现算法
  • 3.4.1 相关度衡量标准
  • 3.4.2 算法描述
  • 3.5 映射构建
  • 3.6 算法性能分析
  • 3.7 实验
  • 3.8 本章小结
  • 4 基于直接递归模式的XML查询优化
  • 4.1 引言
  • 4.2 相关工作分析
  • 4.3 基于直接递归XML模式索引的XML查询优化方法
  • 4.3.1 XML模式处理
  • 4.3.2 查询预处理
  • 4.3.3 XML模式查询
  • 4.3.4 XML文档处理方法和查询算法
  • 4.4 实验
  • 4.5 本章小结
  • 5 传统数据库查询优化
  • 5.1 引言
  • 5.2 多连接查询优化算法
  • 5.2.1 相关工作分析
  • 5.2.2 图模型和树模型的定义
  • 5.2.2 基于图的多连接查询优化算法
  • 5.2.3 模拟实验结果分析
  • 5.3 基于值的查询优化算法
  • 5.3.1 相关工作分析
  • 5.3.2 基于值的查询优化费用模型
  • 5.3.3 基于值的查询优化算法
  • 5.3.4 实验
  • 5.4 本章小结
  • 6 集成系统的查询优化
  • 6.1 引言
  • 6.2 相关工作分析
  • 6.3 集成系统的查询优化框架
  • 6.4 本章小结
  • 结论
  • 参考文献
  • 创新点摘要
  • 攻读博士学位期间参加科研项目情况
  • 攻读博士学位期间发表学术论文情况
  • 致谢
  • 大连理工大学学位论文版权使用授权书
  • 相关论文文献

    • [1].分布式数据库查询优化方法[J]. 产业与科技论坛 2017(14)
    • [2].面向对象数据库模型、存储及查询优化的研究[J]. 数字通信世界 2017(09)
    • [3].试论面向异构类型的大数据查询优化措施[J]. 数码世界 2017(02)
    • [4].基于分布式数据库的查询优化方法探究[J]. 电子制作 2014(01)
    • [5].分布式数据库分片关系变换查询优化[J]. 电子设计工程 2011(08)
    • [6].数据集成系统中多查询优化的研究[J]. 科学技术与工程 2009(12)
    • [7].一个端到端的基于深度学习的查询优化引擎[J]. 赤峰学院学报(自然科学版) 2019(01)
    • [8].大数据环境下数据的查询优化研究[J]. 长治学院学报 2015(05)
    • [9].面向分布式数据库的相关子查询优化策略[J]. 华东师范大学学报(自然科学版) 2016(05)
    • [10].面向异构类型的大数据查询优化研究[J]. 自动化与仪器仪表 2016(04)
    • [11].列存储中的OLAP多查询优化方法[J]. 计算机科学与探索 2012(09)
    • [12].一种改进的分布式数据库查询优化算法[J]. 计算机应用 2008(S2)
    • [13].基于查询优化策略的语义缓存谓词化简[J]. 电子学报 2013(10)
    • [14].基于分布式数据库查询优化策略的研究[J]. 硅谷 2014(04)
    • [15].基于关系数据库的查询优化的方法研究[J]. 长沙通信职业技术学院学报 2012(01)
    • [16].数据库管理系统中查询优化的设计和实现措施[J]. 电子技术与软件工程 2018(15)
    • [17].海量数据查询优化[J]. 信息与电脑(理论版) 2010(22)
    • [18].基于窗口函数和分布式集群的可视化学术搜索系统数据查询优化[J]. 上海交通大学学报 2019(08)
    • [19].电商推荐系统中查询优化研究[J]. 哈尔滨商业大学学报(自然科学版) 2019(02)
    • [20].浅谈SQL server查询优化[J]. 黑龙江科技信息 2013(14)
    • [21].Oracle中常用的查询优化方法[J]. 电脑知识与技术 2011(29)
    • [22].HIS查询优化的设计与实现[J]. 福建电脑 2009(06)
    • [23].数据库管理系统中查询优化的设计与实现[J]. 电脑知识与技术 2018(25)
    • [24].关系数据库系统的查询优化设计及研究[J]. 煤炭技术 2012(08)
    • [25].无线传感器网络中基于关联度的多查询优化[J]. 计算机工程与应用 2011(21)
    • [26].网格环境下基于流水线的多重相似查询优化[J]. 软件学报 2010(01)
    • [27].关系数据库中基于区域聚类的多区域查询优化[J]. 北京工业大学学报 2008(07)
    • [28].分布式数据库查询优化分析[J]. 电子技术与软件工程 2015(03)
    • [29].浅析多关系SQL查询[J]. 无线互联科技 2015(15)
    • [30].基于云计算的多重查询优化系统[J]. 计算机工程 2014(09)

    标签:;  ;  ;  ;  

    综合信息集成及查询优化的研究
    下载Doc文档

    猜你喜欢