一种基于百度百科的中文领域本体构建方法

一种基于百度百科的中文领域本体构建方法

论文摘要

下一代互联网被称为语义Web,本体位于其核心层次。因此本体构建方法的研究十分重要。因为本体是整个世界的映射,直接研究本体的构建方法是不可能的,因此基于分治的思想,将本体划分为领域本体,将问题转化为研究领域本体的构建方法。中文因为具有很多和其他语言尤其是印欧语系不同的特征,因此研究最多的基于英语的本体构建方法难以直接用于中文的领域本体构建。中文领域本体构建的方法目前还比较少。首先语料的选择就是个比较大的困难。因此才有很多关于领域概念提取的方法。百度百科在领域概念的确定方面有先天的优势。它是一种基于wiki方式的社群式编辑的百科词典,既具有词典的特性,又兼具wiki的诸多特性。这些特性很多都特别适合于本体的构建。因此,选择百度百科作为语料,可以兼具以半结构化词典语料的优势和wiki这一编辑模式下词条定义可以得到最广泛的认同的优势。本文提出了一种基于百度百科中文的领域本体构建方法。该方法综合了Cyclic Acquisition Process方法、自顶向下和自下而上三种主体方法,采用了以概念为内循环核心,本体为外循环核心的设计,支持更新和完善的循环机制。并在方法中提出了基于百度百科构建本体的三大原则,以及依据三大原则设计的带优先级的根据中文形式化语言特征寻找上位词的方法;根据百度百科的特征对TF IDF相似度计算方法进行了改进,并提出了改进后的算法在本体构建中的几种应用。最后应用依据方法构建的一个实例,试验了“蔷薇科”领域的本体构建,并对实验结果进行了分析。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 本文的研究内容及意义
  • 1.4 论文组织结构
  • 第2章 本体构建相关理论知识
  • 2.1 领域本体概述
  • 2.1.1 本体的基本含义
  • 2.1.2 本体的构成
  • 2.1.3 本体构建的规则
  • 2.1.4 领域本体构建方法探讨
  • 2.2 百度百科介绍
  • 2.2.1 编辑方式
  • 2.2.2 词条结构
  • 2.2.3 词条结构的影响
  • 2.2.4 词条的分类
  • 2.2.5 从百度百科构建本体的分析
  • 2.3 本章小结
  • 第3章 中文领域本体构建方法
  • 3.1 方法的设计
  • 3.2 方法的输入
  • 3.3 将词条插入本体
  • 3.3.1 语义的选择
  • 3.3.2 将词条插入本体
  • 3.3.3 完善其他信息
  • 3.4 上位词的寻找
  • 3.5 自顶向下的过程
  • 3.6 循环和完善
  • 3.7 主体部分算法描述
  • 3.8 本章小结
  • 第4章 中文领域本体构建方法的关键步骤
  • 4.1 寻找下一个词条的规则
  • 4.1.1 寻找上位词
  • 4.1.2 寻找上位词的规则
  • 4.1.3 寻找下一个词条
  • 4.2 相似度计算及应用
  • 4.2.1 相似度的计算方法
  • 4.2.2 相似度计算的应用
  • 4.3 本章小结
  • 第5章 实例分析
  • 5.1 系统设计和实现
  • 5.1.1 系统设计
  • 5.1.2 系统实现
  • 5.1.3 OWL语言描述的本体
  • 5.2 实例分析
  • 5.2.1 实例运行情况
  • 5.2.2 实例运行结果分析
  • 5.3 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    一种基于百度百科的中文领域本体构建方法
    下载Doc文档

    猜你喜欢