论文摘要
随着计算机网络技术、信息技术和数据仓库的持续飞速发展,出现越来越多的分布异构数据源。异构数据源的研究已有很多成果,但由于子数据库和数据仓库中各种各样的异构依然存在,数据异构仍然是数据仓库与其数据源语义匹配的一个严峻问题。一个有益的解决思路是在没有人工参与的情况下,主动数据仓库自动解决语义异构,准确识别数据语义。因此,如何提供语义匹配服务,帮助主动数据仓库解决语义问题,进一步提高主动性已成为国内外研究的热点。基于本体的主动数据仓库语义匹配可解决主动数据仓库在解释、执行主动规则和数据集成时的语义异构。使用户能够计算各个相应概念的相似度,系统不用另外的映射程序就能主动准确地集成数据,主动识别规则语义,成为名副其实的主动数据仓库。论文主要概述了异构数据和异构数据集成的发展状况,在研究背景的基础上讨论本体的理论知识及其构建、主动数据仓库的概念和相关内容。初步实现了一个基于本体的主动数据仓库语义匹配系统。根据系统的需要,按照构造本体的基本方法和实验的要求,设计了系统所需要的相应本体;算法部分在弹性匹配的基础上,提出了更加合适和精确判断匹配的概率匹配(Probability Matching,PM)方法;为了度量本体中两个类的相似度,提出了语义距离(Semantic Distance,SD)的概念并实现了具体的计算方法(包括深度距离和长度距离);然后在此基础上提出两种相似度函数:一种是长深距离计算法,一种是共享信息含量法。接着提出了项目和匹配系统的整体架构和算法的实现,最后完成了系统流程和框架结构的分析设计,并根据系统的需要测试出合适的阀值,利用各种图表比较和选择上面提出的各种算法。最后本文对系统的进一步研究工作进行了探讨。