论文摘要
下一代互联网被称为语义Web,本体位于其核心层次。因此本体构建方法的研究十分重要。因为本体是整个世界的映射,直接研究本体的构建方法是不可能的,因此基于分治的思想,将本体划分为领域本体,将问题转化为研究领域本体的构建方法。中文因为具有很多和其他语言尤其是印欧语系不同的特征,因此研究最多的基于英语的本体构建方法难以直接用于中文的领域本体构建。中文领域本体构建的方法目前还比较少。首先语料的选择就是个比较大的困难。因此才有很多关于领域概念提取的方法。百度百科在领域概念的确定方面有先天的优势。它是一种基于wiki方式的社群式编辑的百科词典,既具有词典的特性,又兼具wiki的诸多特性。这些特性很多都特别适合于本体的构建。因此,选择百度百科作为语料,可以兼具以半结构化词典语料的优势和wiki这一编辑模式下词条定义可以得到最广泛的认同的优势。本文提出了一种基于百度百科中文的领域本体构建方法。该方法综合了Cyclic Acquisition Process方法、自顶向下和自下而上三种主体方法,采用了以概念为内循环核心,本体为外循环核心的设计,支持更新和完善的循环机制。并在方法中提出了基于百度百科构建本体的三大原则,以及依据三大原则设计的带优先级的根据中文形式化语言特征寻找上位词的方法;根据百度百科的特征对TF IDF相似度计算方法进行了改进,并提出了改进后的算法在本体构建中的几种应用。最后应用依据方法构建的一个实例,试验了“蔷薇科”领域的本体构建,并对实验结果进行了分析。