基于中文文本的本体构建方法研究

论文摘要

语义Web的存在、研究、和运作的基础是形式化本体。本体是对可共享概念的一个形式化的明确说明,它包含对某个领域的概念及概念间的关系的描述和约束。自20世纪90年代提出这个概念以来,本体受到了国内外越来越多的关注,但本体研究实际上还处于初步阶段,其理论和方法都有待于进一步完善。特别是现阶段的本体构建需要耗费大量的人力、物力和财力,时间周期也很长。因此,本体的有效构建成为本体研究乃至语义Web研究的瓶颈。探讨构建领域本体的有效途径,成为了一个无法回避的问题。本文围绕中文本体的构建方法进行了讨论和研究。首先对本体和本体学习基础知识进行了简单的介绍,给出了当今国内外本体构建的主要方法以及评价标准,介绍了目前比较流行的几种本体学习工具。其次,针对传统本体资源构建方式的不足,本文提出了基于统计和规则混合策略的本体获取方法,描述了整个方法的框架和两个关键子模块框架,并对此方法进行了合理性分析。然后讨论了在这个框架下的几个关键技术问题:语料获取与预处理,术语抽取,关系抽取,并分别对这些问题的解决方案作了详细介绍。再次,本文提出了基于决策树的本体自动扩充方法,将本体自动扩充的主要任务定位在实例的概念分类上,从已有的本体库中获取实例作为训练样本构建规则的决策树,这组规则可以用于指导丰富本体知识。最后,对本文提出的本体获取方法进行了初步的试验,对试验结果进行了分析,评价了这种方法的优缺点。

论文目录

摘要

Abstract

第1章绪论

1.1 课题背景

1.2 课题的目的及意义

1.3 国内外本课题研究现状

1.4 本文研究内容

1.5 本文结构和组织

第2章本体与本体学习概述

2.1 本体论概述

2.1.1 本体概念

2.1.2 本体建模元语

2.1.3 本体描述语言

2.1.4 本体的分类

2.2 本体学习

2.2.1 本体学习定义

2.2.2 本体学习技术分类

2.2.3 本体学习规则

2.2.4 本体学习工具

2.3 本体构建方法学

2.4 本章小结

第3章基于中文文本的本体获取方法

3.1 基于文本的本体学习层次

3.2 基于混合策略的本体学习框架

3.2.1 方法框架描述

3.2.2 方法的合理性分析

3.3 语料初始化

3.3.1 语料获取及预处理

3.3.2 种子词汇概念的引入

3.3.3 核心本体

3.3.4 引入种子词汇及核心本体的意义

3.4 基于统计方法的候选术语的获取

3.4.1 术语抽取原则

3.4.2 评价与选择方法

3.4.3 位置因子的计算

3.5 关系获取

3.5.1 基于包含原理的关系提取方法

3.5.2 基于规则的关系提取

3.5.3 规则集的构造

3.5.4 规则集的扩充算法

3.5.5 一般关系抽取方法研究

3.6 本章小结

第4章基于决策树方法的本体自动扩充

4.1 基本思想

4.2 决策树方法

4.3 基于决策树方法的本体概念分类规则学习

4.4 本章小结

第5章实验与评价

5.1 评价指标

5.2 语料选取

5.3 测试结果

5.4 评价

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

基于中文文本的本体构建方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢