基于模糊相似度的异构本体映射、合并及校验方法的研究

基于模糊相似度的异构本体映射、合并及校验方法的研究

论文摘要

本体是对特定领域概念及其关系的清晰描述,它可作为不同信息系统之间信息交换的基础。然而,由于信息系统是由不同组织在不同时间和不同需求背景下开发的,因此,这些系统所依赖的本体之间不可避免存在异构性,这种异构性为不同系统之间的互操作带来了极大的障碍。为了解决这一问题,需要识别不同本体间存在的异构或冲突,然后根据识别结果,在本体间对等概念和关系上建立对应联系(即:本体映射)或进行不同本体间的合并(即:本体合并)。为了克服人工进行本体映射和本体合并中工作量大,效率低的问题,并满足在不确定环境下进行信息系统之间动态和实时互操作的要求,国内外已进行了许多关于自动(或半自动)本体映射、合并的研究,这些研究虽然已取得了很大的突破和进展,但在准确率和效率等许多方面与实际需求还有较大差距。本文从信息集成的实际出发,针对过去研究中存在的不足,就进一步提高本体映射和合并的准确率和效率进行了深入和广泛的研究,并同时展开了对映射及合并结果进行形式化校验的方法研究以验证这些结果逻辑上的正确性。本文的创新性工作可以归纳为下面几点:(1)提出了模糊化的相似度表示方法本体概念的特征信息一般分为两类:文本特征信息(名称和实例等),结构特征信息(对象属性、分类关系及依赖函数关系等)。在传统本体映射中,本体概念间的相似度计算,一般是通过基于不同文本特征信息的多个相似度中间结果的复合叠加、多种结构特征信息的顺序迭代或者两者综合等方法来实现,其相似度结果(中间结果或最终结果)均为单一数值,并以该数值(最终结果)来判别两个概念是否相似。由于概念间的相似度本身存在着固有的模糊特性(所谓模糊特性是指两个概念间的相似度以一定的概率密度函数分布于某一数值区间),因此,在映射计算过程中,如果过早用确定数值代替概率密度函数来描述相似度,将可能丢失一些可用于后续决策的信息,从而加大决策(映射)的风险。此外,对于本体的两类特征信息,许多传统方法采用了“先按文本信息进行映射,再用结构信息完成校验迭代”的串行手段来进行处理,其中,基于结构信息的迭代是以基于文本信息的映射结果为先验知识而进行的,从而有可能过于强化了文本信息的作用弱化了结构信息对相似度计算的贡献。为了解决这两个问题,本文引入了模糊相似度,提出了基于各类特征信息的不同相似度的模糊化表示方法,从而在概念相似度的计算过程中引入了模糊特性,进而既避免了过早对相似度模糊特性做出裁决的风险,又使文本和结构信息能并行参与映射计算,提高了匹配效果。(2)提出了基于属性值联合分布的映射方法概念中的实例信息可用于本体映射,传统的基于实例的本体映射方法一般是将实例中的数值属性取值直接合并为长文本信息。这种方法简单地假定概念的各个数值属性是完全独立的,而没有考虑它们之间可能存在的对应概率依赖关系。因此,该方法未能充分利用概念中与实例有关的重要信息,影响了映射结果的准确性。为此,本文提出了一种能有效利用上述关系的基于实例属性值联合分布的映射方法,提高了映射效果。此外,在实际应用中,本体概念的表达经常会发生变更(如:添加或删除属性),这就导致了更改后的概念表达与原有概念实例对应属性集之间的冲突,因此,相关本体概念匹配过程中经常会出现某些实例属性值缺失的现象,这直接影响了属性值联合分布计算的准确性。为此,本文引入粗糙集理论来拟合属性值缺失的样本实例空间,提高了基于属性值联合分布的映射效果。(3)提出了新型的本体合并结果及映射结果的形式化校验方法在本体合并和映射过程中,一般会产生一系列本体合并结果(新本体)和映射结果,为了保证这些结果在逻辑上的正确性,则需对其进行形式化校验。目前,有关本体模型的形式化校验很多是围绕单个概念或关系来进行,而多个概念和关系之间的结构及约束信息却未得到充分利用,且对于本体映射结果校验目前也没有系统有效的形式化方法。为此,本文引入面向对象中的OCL(Object Constraint Language)规则,并针对本体应用环境进行了相应扩展,实现了本体模型结构及约束、映射约束规则等逻辑描述的形式化表示,进而提出了采用本体定义元模型和映射元模型来辅助进行形式化校验的方法。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 相关研究工作
  • 1.2.1 本体概述
  • 1.2.2 本体分类
  • 1.2.3 本体建模语言
  • 1.2.4 研究现状
  • 1.3 课题意义及本论文主要工作
  • 1.3.1 研究意义
  • 1.3.2 研究内容
  • 1.3.3 课题来源
  • 1.4 章节安排
  • 第二章 模糊化相似度表示的定义与归一化
  • 2.1 引言
  • 2.2 模糊化相似度表示的定义
  • 2.2.1 区间型模糊相似度表示
  • 2.2.2 结构型模糊相似度表示
  • 2.2.3 是否型和数值型模糊相似度表示
  • 2.2.4 三角模糊相似度表示
  • 2.3 模糊化相似度表示的归一化
  • 2.3.1 从区间型模糊表示到三角模糊表示的转换
  • 2.3.2 从结构型模糊表示到三角模糊表示的转换
  • 2.3.3 从是否型和数值型模糊表示到三角模糊表示的转换
  • 2.4 本章小结
  • 第三章 异构本体间模糊化可配置本体概念映射
  • 3.1 引言
  • 3.2 相关技术研究
  • 3.3 五种模糊化本体概念相似度计算
  • 3.3.1 基于Elementary的模糊化概念相似度计算
  • 3.3.2 基于Attribute的模糊化概念相似度计算
  • 3.3.3 基于Taxonomy的模糊化概念相似度计算
  • 3.3.4 基于Dependence的模糊化概念相似度计算
  • 3.3.5 基于Axiom的模糊化概念相似度计算
  • 3.4 可配置本体映射模型
  • 3.4.1 CMT(可配置映射计算树)模型
  • 3.4.2 SMT(特殊映射计算树)模型
  • 3.4.3 从CMT模型到SMT模型的转换
  • 3.5 可配置本体概念相似度计算
  • 3.6 实验结果与分析
  • 3.6.1 映射性能评估标准
  • 3.6.2 应用实例
  • 3.6.3 五类本体概念匹配方法
  • 3.6.4 映射结果分析
  • 3.6.5 模糊化映射方法时间复杂度分析
  • 3.6.6 可配置本体概念匹配的应用场景
  • 3.7 本章小结
  • 第四章 基于模糊块相似度的异构本体合并
  • 4.1 引言
  • 4.2 模糊化本体模块相似度计算
  • 4.2.1 基于概念的模糊块相似度计算
  • 4.2.2 基于关系的模糊块相似度计算
  • 4.2.3 可配置本体模块相似度计算
  • 4.3 基于模糊块相似度的异构本体合并算法研究
  • 4.3.1 核心合并算法
  • 4.3.2 本体关系合并算法
  • 4.4 应用实例与分析
  • 4.5 本体合并的应用场景
  • 4.6 本章小结
  • 第五章 基于粗糙集和实例选择的本体概念映射
  • 5.1 引言
  • 5.2 相关研究
  • 5.2.1 CBR分类器
  • 5.2.2 CBR分类器在文本分类中的应用
  • 5.2.3 基于依赖关系的特征归约方法
  • 5.3 理论基础
  • 5.3.1 实例选择相关概念定义
  • 5.3.2 粗糙集实例空间重叠
  • 5.4 实例库的构造
  • 5.4.1 实例选择
  • 5.4.2 属性值规范化
  • 5.4.3 属性归约
  • 5.5 映射算法
  • 5.5.1 准备阶段
  • 5.5.2 映射阶段
  • 5.6 实验结果与分析
  • 5.6.1 映射效果分析
  • 5.6.2 增量更新辨识矩阵方法的时间复杂度分析
  • 5.7 本章小结
  • 第六章 面向元模型的本体模型校验和映射结果校验
  • 6.1 引言
  • 6.2 基于元模型的四层本体模型体系架构
  • 6.3 本体模型校验
  • 6.3.1 本体定义元模型(ODM)
  • 6.3.2 基于ODM和OCL的本体模型校验应用实例与分析
  • 6.4 本体映射结果校验
  • 6.4.1 本体映射元模型(OMM)
  • 6.4.2 基于OMM和OCL的本体映射结果校验应用实例与分析
  • 6.5 本体模型校验和映射结果校验的应用场景
  • 6.6 本章小结
  • 第七章 全文总结
  • 7.1 本论文研究工作总结
  • 7.2 下一步展望
  • 参考文献
  • 附录A 程序算法
  • 附录B 相关图表
  • 攻读博士学位期间已发表或录用的论文
  • 攻读博士学位期间参与的科研及实践项目
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于模糊相似度的异构本体映射、合并及校验方法的研究
    下载Doc文档

    猜你喜欢