论文摘要
信息网络时代的到来给国家政府部门的工作提出了快捷、高效的要求,发展电子政务已是大势所趋。但是目前的电子政务系统在面临着很多问题,其中一个主要的难题就是信息源异构问题,信息集成技术就是研究异构数据之间的集成问题,它将这些孤立的数据都集成起来,并且提供给用户一个统一的视图,使用户有可能从巨大的数据资源中获取所需的东西。 在对多异构分布自治的信息源的集成中,我们首要解决的就是这些数据源之间产生的语义冲突。其中这些冲突包括由不一致数据和对相同数据的多个解释造成的数据级冲突和由数据的逻辑组织不相似所造成的模式级冲突。我们引入本体的概念来解决这些语义冲突问题。 本文我们提出了应用本体技术进行面向语义的信息集成的电子政务系统模型EGⅡ,我们以劳动和社会保障部门为背景,实现异构数据源的信息集成。在本模型中,本文重点探讨了它的核心部分——本体的自动生成技术。 本文提出了SFCA(带同义词判定的形式化概念分析)(Synonym Formal Concept Analysis)算法,它对FCA方法进行了改进。算法根据属性在概念中的重要性对属性赋权值,利用属性的权值计算两个概念的相似度,比较相似度和相似阈值的大小,最终确定两个概念是否是同义词关系。算法改造了FCA方法中的关联矩阵,未增加新的数据结构,在分析出概念的普通关系的同时,分析出符合领域习惯的同义词关系。 本文还设计了根据概念格生成本体的算法OAG。它在SFCA算法生成的概念格与本体的类之间的建立对应,并利用这种对应关系由格生成本体。由于SFCA算法分析出了概念之间的同义词关系,使得最后生成的本体语义信息更加丰富。 本文提出的本体的自动生成技术与手工方法建立本体相比提高了效率,减少了错误的发生。与其他的本体半自动、自动生成技术相比,在基本不增加复杂度的情况下,生成的本体语义信息更加丰富。