领域文本知识获取方法研究及其在考古领域中的应用

领域文本知识获取方法研究及其在考古领域中的应用

论文题目: 领域文本知识获取方法研究及其在考古领域中的应用

论文类型: 博士论文

论文专业: 计算机软件与理论

作者: 张春霞

导师: 曹存根

关键词: 国家知识基础设施,领域知识获取本体,领域概念获取,领域概念上下位关系学习,描述流提取,个体知识获取,信息提取,语境,考古领域

文献来源: 中国科学院研究生院(计算技术研究所)

发表年度: 2005

论文摘要: 互联网时代,信息爆炸,全球一体化,使信息的来源、数量和形式发生了根本的变化。如何用智能化的手段处理网上的海量文本信息已成为一个十分紧迫的问题。将信息转变为知识、将信息基础设施发展为知识基础设施是二十一世纪的重要科研方向,旨在实现“在恰当的时间,以恰当的语言、恰当的粒度,将恰当的信息提供给恰当的人们”的目标。当前最热门的领域之一是“文本挖掘”,即从巨量的非结构化文本中抽取信息。这就为文本知识获取提出了新的挑战和迫切需求。本文主要针对领域概念获取、领域概念上下位关系学习、描述流提取、领域个体知识获取的方法,以及它们在考古领域中的应用,开展了如下几个方面的研究工作: (1) 一种提取领域概念的混合式方法。目前,在信息检索、文本分类、主题跟踪和探测等文本处理和分析任务中,通常是以“词”作为特征项的。然而这些词并不一定能忠实地表达文本的内容、类别和主题。这一问题在处理领域文本时显得尤为突出,已经阻碍了文本处理任务的发展。领域概念首先是一个词,并为实体概念、或性质概念、或关系概念。领域概念能够更加准确和忠实地表达文本的内容。本文的混合式方法融汇了规则、统计、句法和语义信息来识别概念。该方法首次引入主动词和语义角色识别来提取领域概念,提出了基于语料学习的主动词识别方法,设计了主动词和面向知识获取的语义模型驱动的语义角色识别方法。通过与分词系统实验结果相比,验证了该方法的有效性。(2) 多策略的领域概念上下位关系学习方法。领域概念上下位关系学习是指基于已构建的上下位关系概念对来学习未知的上下位关系概念对。本文提出了三种学习策略:种子上下位关系概念对驱动和并列语境启发的学习方法、基于上下位关系语境的学习方法,以及领域概念构词法驱动的学习方法。前两种方法是根据上下位关系概念对所处的上下文来提取的,第三种方法是根据概念的内部构成规律来提取的。这些方法是由学习Agent来完成的,它由已知知识、学习条件和获取知识三部分构成,采用框架和一阶逻辑表示,因此学习Agent具有良好的扩展性。(3) 一种领域本体驱动的描述流提取方法。通过信息检索、文本分类和主题检测和跟踪等文本处理和分析等任务,我们能够了解文本的内容。但是,我们仍然难以知道文本描述了主题的哪些方面以及它们的描述顺序。因此,我们提出了一个新的文本分析任务——描述流提取。描述流是指文本的主题、主题的描述方面以及它们出现的偏序关系。本文采用了一种领域本体驱动的描述流提取方法,描述流提取是为领域个体知识获取服务的。通过实验验证了该方法的可行性。

论文目录:

摘要

Abstract

图目录

表目录

第一章 文本知识获取研究概述

1.1 文本知识获取介绍

1.1.1 文本知识获取涵义

1.1.2 文本知识获取研究意义

1.1.3 文本知识获取的主要问题

1.2 知识获取研究现状与分析

1.2.1 主要的知识获取研究项目

1.2.2 主要的文本挖掘软件

1.2.3 文本知识获取相关任务比较

1.2.4 文本知识获取研究方法比较与分析

1.2.5 语境比较与分析

1.3 关于本论文

1.3.1 主要研究内容

1.3.2 主要成果

1.3.3 论文结构

第二章 领域知识获取本体

2.1 形式领域本体

2.2 领域知识获取本体

2.3 领域知识获取本体表示语言KAOL

2.3.1 类表示语言

2.3.2 槽语境表示语言

2.4 基本知识

2.4.1 字符串

2.4.2 语境关系

第三章 领域概念获取

3.1 领域概念获取

3.1.1 领域概念的判断准则

3.1.2 领域概念获取的困难

3.2 相关研究工作

3.2.1 自动分词

3.2.2 术语抽取

3.3 混合式的领域概念获取方法

3.3.1 算法的设计思想

3.3.2 基本概念

3.3.3 预处理模块

3.3.4 分词模块

3.3.5 语义聚合体和单复句识别模块

3.3.6 通用短语识别模块

3.3.7 主动词识别模块

3.3.8 语义角色识别模块

3.3.9 候选领域概念产生模块

3.3.10 领域概念验证模块

3.3.11 概念学习模块

3.3.12 领域概念获取算法

3.4 领域概念获取实验结果及分析

3.4.1 领域概念获取评价方法

3.4.2 实验评估与分析

3.5 本章小结

第四章 领域概念上下位关系学习

4.1 基本概念

4.2 研究现状和分析

4.2.1 基于统计的方法

4.2.2 基于语境的方法

4.2.3 概念关系提取方法比较

4.3 领域概念上下位关系学习方法

4.3.1 算法的设计思想

4.3.2 种子上下位关系概念对驱动的学习

4.3.3 语境驱动的上下位关系学习

4.3.4 领域概念构词法驱动的上下位关系学习

4.4 实验结果与分析

4.4.1 上下位关系学习评价方法

4.4.2 实验评估与分析

4.5 本章小结

第五章 描述流提取

5.1 基本概念

5.1.1 描述子的类型

5.1.2 描述子的构建准则

5.1.3 描述流的结构

5.1.4 描述流的表示语言

5.2 描述流的形式分析

5.3 描述流的定性分析

5.4 描述流的定量分析

5.5 相关研究工作

5.5.1 基于统计的方法

5.5.2 基于知识的方法

5.5.3 混合的方法

5.5.4 其他方法

5.6 描述流提取系统

5.6.1 算法的设计思想

5.6.2 提取特征项模块

5.6.3 构建训练描述流模块

5.6.4 构建描述子的关联词汇场模块

5.6.5 生成特征项的描述子模块

5.6.6 提取句子级语段的描述流模块

5.6.7 生成篇章级语段的描述流模块

5.6.8 验证描述流模块

5.7 实验结果与分析

5.7.1 实验评估方法

5.7.2 实验结果与方法分析

5.8 本章小结

第六章 个体知识获取

6.1 概述

6.2 基本概念

6.3 个体知识获取方法

6.3.1 显式槽的知识获取

6.3.2 隐式槽的知识获取

6.4 实验结果与分析

6.4.1 实验结果与方法分析

6.4.2 相关工作比较与分析

6.5 本章小结

第七章 语境

7.1 语境分类体系

7.2 语境构建

7.3 语境相似度量

7.4 语境间操作

7.4.1 泛化

7.4.2 合并

7.5 语境匹配

7.5.1 匹配冲突的原因

7.5.2 匹配冲突的消解机制

7.6 语境验证

7.6.1 语境冗余

7.6.2 语境矛盾

7.6.3 语境不完整

7.7 本章小结

第八章 结束语

8.1 本文工作总结

8.2 本文的主要贡献和创新

8.3 下一步研究工作

参考文献

术语对照表

致谢

作者简历

发布时间: 2006-12-27

参考文献

  • [1].基于Kolmogorov复杂性的知识获取方法研究[D]. 郝宇.清华大学2005
  • [2].基于粗糙集理论的不确定信息处理与知识获取方法研究[D]. 冯林.西南交通大学2008
  • [3].不完备数据的动态知识获取方法研究[D]. 罗川.西南交通大学2015
  • [4].面向中医辨证计算的粗糙集知识获取方法及其应用研究[D]. 施明辉.厦门大学2008

相关论文

  • [1].基于领域知识的知识发现研究[D]. 杨立.中国科学院研究生院(软件研究所)2005
  • [2].文本挖掘若干关键技术研究[D]. 陈晓云.复旦大学2005
  • [3].多学科领域本体设计方法的研究[D]. 顾芳.中国科学院研究生院(计算技术研究所)2004
  • [4].基于语义Web技术的知识融合和同步方法研究[D]. 谢能付.中国科学院研究生院(计算技术研究所)2006
  • [5].人知交互中用户隐式知识需求分析研究[D]. 丰强泽.中国科学院研究生院(计算技术研究所)2006
  • [6].数学概念的知识获取与分析方法研究[D]. 曾庆田.中国科学院研究生院(计算技术研究所)2005
  • [7].基于本体的不确定性知识管理研究[D]. 程勇.中国科学院研究生院(计算技术研究所)2005
  • [8].基于混合知识表示的设计创新及知识获取研究[D]. 秦忠宝.西北工业大学2006
  • [9].基于Web信息抽取的专业知识获取方法研究[D]. 胡燕.武汉理工大学2007
  • [10].领域知识的获取[D]. 李卫.北京邮电大学2008

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

领域文本知识获取方法研究及其在考古领域中的应用
下载Doc文档

猜你喜欢