基于中文文本的本体构建方法研究

基于中文文本的本体构建方法研究

论文摘要

语义Web的存在、研究、和运作的基础是形式化本体。本体是对可共享概念的一个形式化的明确说明,它包含对某个领域的概念及概念间的关系的描述和约束。自20世纪90年代提出这个概念以来,本体受到了国内外越来越多的关注,但本体研究实际上还处于初步阶段,其理论和方法都有待于进一步完善。特别是现阶段的本体构建需要耗费大量的人力、物力和财力,时间周期也很长。因此,本体的有效构建成为本体研究乃至语义Web研究的瓶颈。探讨构建领域本体的有效途径,成为了一个无法回避的问题。本文围绕中文本体的构建方法进行了讨论和研究。首先对本体和本体学习基础知识进行了简单的介绍,给出了当今国内外本体构建的主要方法以及评价标准,介绍了目前比较流行的几种本体学习工具。其次,针对传统本体资源构建方式的不足,本文提出了基于统计和规则混合策略的本体获取方法,描述了整个方法的框架和两个关键子模块框架,并对此方法进行了合理性分析。然后讨论了在这个框架下的几个关键技术问题:语料获取与预处理,术语抽取,关系抽取,并分别对这些问题的解决方案作了详细介绍。再次,本文提出了基于决策树的本体自动扩充方法,将本体自动扩充的主要任务定位在实例的概念分类上,从已有的本体库中获取实例作为训练样本构建规则的决策树,这组规则可以用于指导丰富本体知识。最后,对本文提出的本体获取方法进行了初步的试验,对试验结果进行了分析,评价了这种方法的优缺点。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 课题的目的及意义
  • 1.3 国内外本课题研究现状
  • 1.4 本文研究内容
  • 1.5 本文结构和组织
  • 第2章 本体与本体学习概述
  • 2.1 本体论概述
  • 2.1.1 本体概念
  • 2.1.2 本体建模元语
  • 2.1.3 本体描述语言
  • 2.1.4 本体的分类
  • 2.2 本体学习
  • 2.2.1 本体学习定义
  • 2.2.2 本体学习技术分类
  • 2.2.3 本体学习规则
  • 2.2.4 本体学习工具
  • 2.3 本体构建方法学
  • 2.4 本章小结
  • 第3章 基于中文文本的本体获取方法
  • 3.1 基于文本的本体学习层次
  • 3.2 基于混合策略的本体学习框架
  • 3.2.1 方法框架描述
  • 3.2.2 方法的合理性分析
  • 3.3 语料初始化
  • 3.3.1 语料获取及预处理
  • 3.3.2 种子词汇概念的引入
  • 3.3.3 核心本体
  • 3.3.4 引入种子词汇及核心本体的意义
  • 3.4 基于统计方法的候选术语的获取
  • 3.4.1 术语抽取原则
  • 3.4.2 评价与选择方法
  • 3.4.3 位置因子的计算
  • 3.5 关系获取
  • 3.5.1 基于包含原理的关系提取方法
  • 3.5.2 基于规则的关系提取
  • 3.5.3 规则集的构造
  • 3.5.4 规则集的扩充算法
  • 3.5.5 一般关系抽取方法研究
  • 3.6 本章小结
  • 第4章 基于决策树方法的本体自动扩充
  • 4.1 基本思想
  • 4.2 决策树方法
  • 4.3 基于决策树方法的本体概念分类规则学习
  • 4.4 本章小结
  • 第5章 实验与评价
  • 5.1 评价指标
  • 5.2 语料选取
  • 5.3 测试结果
  • 5.4 评价
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于中文文本的本体构建方法研究
    下载Doc文档

    猜你喜欢