基于MapReduce的大规模本体匹配方法研究

基于MapReduce的大规模本体匹配方法研究

论文摘要

随着语义Web的快速发展,有越来越多的语义Web本体被发布出来。然而,语义Web的分散性导致异构本体的产生,即存在不同的本体包含同义的类、属性和实例。本体匹配旨在发掘不同本体之间映射关系,为消除本体的异构性提供一种有效的途径。但是,传统的语义Web本体匹配方法无法应对大规模本体匹配问题。一些研究者尝试通过简化匹配算法和本体划分减少计算耗时,但并没有突破单机计算能力的局限性。事实上,大规模本体匹配问题可分为两大类。一类是大型本体匹配问题,即参与匹配的每个本体都具有较大的规模;另一类是大规模多本体匹配问题,即每个本体的规模不大,但参与匹配的本体数量较多,使得所有本体的总规模较大。近年来,分布式计算框架MapReduce引起了研究者的关注。MapReduce通过key-value的键值组合机制将复杂计算任务分配到不同的节点。本文使用MapReduce框架处理大规模本体匹配问题。本文的主要贡献包括以下两个点:(1)基于MapReduce的大型本体匹配。本文提出一种基于MapReduce框架和虚拟文档相似度的本体匹配方法,对两个大型本体进行匹配。该方法利用了MapReduce框架的三个特性,即数据项连接、图遍历和数据划分,并将这些特性与虚拟文档相似度技术相结合。本文将该方法命名为V-Doc+。该方法分为三个MapReduce阶段。首先,命名实体(类、属性和实例)、空白结点与其相关的RDF语句在MapReduce过程中连接,使得命名实体和空白结点的描述信息被构建;接着,本文在MapReduce过程中对RDF图结点做一步广度搜索,使得每个实体与其邻接结点聚合;再者,为了减少匹配计算空间,本文利用一种基于单词权重的划分方法,将具有潜在匹配关系的类和属性分配到同一个MapReduce节点上做相似度计算。实验结果表明本文提出的方法能够在保证精度和召回率的前提下大幅度减小计算时间。(2)基于MapReduce的大规模多本体匹配。与大型本体匹配不同,大规模多本体匹配方法需要在多个本体之间进行匹配。即使单个本体规模不大,这些本体的组合数量使得针对大型本体的一对一匹配方法必须重复运行多次。因此,本文基于MapReduce平台,提出两种针对大规模多本体匹配的并行计算方案。本文通过实验对两种方案进行比较。相比按顺序对本体进行匹配,该方法在计算时间上有大幅度的缩减。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 语义Web简介
  • 1.2 研究内容
  • 1.3 论文组织结构
  • 第二章 相关工作
  • 2.1 语义Web基础知识
  • 2.2 大规模本体匹配
  • 2.2.1 简化匹配算法
  • 2.2.2 数据集划分
  • 2.2.3 基于外部知识的方法
  • 2.2.4 利用并行计算的方法
  • 2.3 MapReduce简介
  • 2.3.1 MapReduce模型
  • 2.3.2 用于相似度匹配的MapReduce算法
  • 2.4 本章小结
  • 第三章 基于MapReduce的大型本体匹配
  • 3.1 本体匹配算法归纳
  • 3.2 基于虚拟文档相似度的本体匹配算法
  • 3.3 V-Doc+
  • 3.3.1 虚拟文档构建
  • 3.3.2 虚拟文档匹配
  • 3.4 实验结果与分析
  • 3.4.1 大型本体数据集测试
  • 3.4.2 基准测试
  • 3.4.3 实验总结
  • 3.5 本章小结
  • 第四章 基于MapReduce的大规模多本体匹配
  • 4.1 适用于大规模多本体匹配的并行化方案
  • 4.2 基于匹配任务划分的并行化方案
  • 4.3 基于本体内容划分的并行化方案
  • 4.3.1 实体特征的定义
  • 4.3.2 实体描述内容的设计
  • 4.4 匹配方案对比
  • 4.4.1 实验方案
  • 4.4.2 实验结果
  • 4.4.3 实验总结
  • 4.5 本章小结
  • 第五章 总结和展望
  • 5.1 全文总结
  • 5.2 进一步的工作
  • 致谢
  • 参考文献
  • 附录 A
  • A.1 硕士期间参与的科研项目
  • A.2 硕士期间发表和录用的论文
  • 相关论文文献

    标签:;  ;  ;  

    基于MapReduce的大规模本体匹配方法研究
    下载Doc文档

    猜你喜欢