论文摘要
随着语义Web的快速发展,有越来越多的语义Web本体被发布出来。然而,语义Web的分散性导致异构本体的产生,即存在不同的本体包含同义的类、属性和实例。本体匹配旨在发掘不同本体之间映射关系,为消除本体的异构性提供一种有效的途径。但是,传统的语义Web本体匹配方法无法应对大规模本体匹配问题。一些研究者尝试通过简化匹配算法和本体划分减少计算耗时,但并没有突破单机计算能力的局限性。事实上,大规模本体匹配问题可分为两大类。一类是大型本体匹配问题,即参与匹配的每个本体都具有较大的规模;另一类是大规模多本体匹配问题,即每个本体的规模不大,但参与匹配的本体数量较多,使得所有本体的总规模较大。近年来,分布式计算框架MapReduce引起了研究者的关注。MapReduce通过key-value的键值组合机制将复杂计算任务分配到不同的节点。本文使用MapReduce框架处理大规模本体匹配问题。本文的主要贡献包括以下两个点:(1)基于MapReduce的大型本体匹配。本文提出一种基于MapReduce框架和虚拟文档相似度的本体匹配方法,对两个大型本体进行匹配。该方法利用了MapReduce框架的三个特性,即数据项连接、图遍历和数据划分,并将这些特性与虚拟文档相似度技术相结合。本文将该方法命名为V-Doc+。该方法分为三个MapReduce阶段。首先,命名实体(类、属性和实例)、空白结点与其相关的RDF语句在MapReduce过程中连接,使得命名实体和空白结点的描述信息被构建;接着,本文在MapReduce过程中对RDF图结点做一步广度搜索,使得每个实体与其邻接结点聚合;再者,为了减少匹配计算空间,本文利用一种基于单词权重的划分方法,将具有潜在匹配关系的类和属性分配到同一个MapReduce节点上做相似度计算。实验结果表明本文提出的方法能够在保证精度和召回率的前提下大幅度减小计算时间。(2)基于MapReduce的大规模多本体匹配。与大型本体匹配不同,大规模多本体匹配方法需要在多个本体之间进行匹配。即使单个本体规模不大,这些本体的组合数量使得针对大型本体的一对一匹配方法必须重复运行多次。因此,本文基于MapReduce平台,提出两种针对大规模多本体匹配的并行计算方案。本文通过实验对两种方案进行比较。相比按顺序对本体进行匹配,该方法在计算时间上有大幅度的缩减。
论文目录
相关论文文献
标签:语义论文; 大型本体匹配论文; 大规模多本体匹配论文;