论文摘要
自从Tim-Berners Lee提出Semantic Web之后,本体的研究逐渐引起了许多人的关注,并被应用到许多领域。在信息管理领域,由于信息的异质异构导致了“信息孤岛”的问题。针对这一问题,许多研究者都提出了不少解决方案,包括如数据联邦,中间件,数据仓库以及分布式数据库等方法,但都面临着无法很好地解决语义冲突的困境。由于本体能够清晰地定义概念之间的语义关系,并能被机器所理解,所以本体被广泛应用到异质异构数据的互联互通。一般的处理方式是将各种各样的数据源转换成本体,然后将这些本体聚集在一起消除彼此间的语义上的差异,从而使得信息在各数据源间交流。在这一过程中,用“本体集成“来描述不同的本体聚集在一起的情形。对于本体集成,一种比较自然的想法是将其中参与集成的各个本体视为一个统一的整体而定义其语义。这个方法的问题在于当所集成的本体规模增大的时候,推理和阅读的复杂度也会相应地增大。本文针对这一问题,提出了一种分布式方法,即将本体集成看作各个本地本体向全局本体映射而成,本文所做的工作分述如下:(1)基于分布式解释来定义本体集成的语法和语义该分布式解释由一系列的本地解释构成,它们分别解释本体(包括全局本体)以及彼此间映射的语义。由于我们所研究的本体集成,数据会从本地本体传送到全局本体中。从这一角度讲,我们在本体集成语义的基础上重点研究了本体集成的连贯性。为了判断本体集成语义的连贯性,我们通过定义归化规则,将本体集成连贯性的判定转换成了DL本体的连贯性判定问题,以充分利用已有的Tableau推理机,比如Pellet, RacePro等,在一定程度上降低了本体集成的推理复杂度。(2)本体集成连贯下的冲突研究通过分布式解释来定义本体集成的语义,在本体集成满足连贯性的情形下处理分布式查询时会出现一种特别的现象,即当本地本体的一些概念被映射至全局本体后,原先概念之间的关系会引发全局本体的不连贯性,进而导致一些“脏数据”会被传送到全局本体中。在本文,我们用“冲突”来描述该现象。针对冲突,我们基于本体的闭包给出了一种检测与发现的方法。该方法首先计算出本地本体的闭包,然后将所有被映射的概念之间的关系包括隐含关系寻找出来,再送入到全局本体中判定是否引发其不连贯性。最后通过实验验证了这一方法的正确性和可行性。(3)本体集成不连贯性的诊断研究当本地本体映射至全局本体时,部分映射关系会导致本体集成的不连贯,此时需要寻找导致不连贯的那些映射关系。针对这一问题,本文基于本体演化的原理提出了一种对本体集成的连贯性进行诊断的方法。我们将本地本体子全局本体的映射关系看成是全局本体的新增公理,由此转换成了本体演化问问题。然后利用“信念修正”理论制定了一系列的假定(postulates)确保诊断的正确性。接着定义了semi-kernel操作对映射关系实施具体的诊断。最后用实验验证证了这一方法的可行性。(4)将前述的理论和算法应用于信息集成模型我们将本体集成的语义连贯性判定算法、冲突的检测和发现算法以及连贯性诊断算法联合起来构成了本体集成模型中的集成模块。最后还通过一个案例演示了本体集成实施的具体过程。基于本体的信息集成在许多领域都得到了应用。本文所研究的用分布式解释来定义本体集成的语法和语义,为本休集成的推理、阅读和维护提供了一个比较便利的途径。