文本单元向知识单元转化的模型与映射算法

文本单元向知识单元转化的模型与映射算法

论文摘要

随着信息技术的广泛普及和应用,人们对知识服务的需求越来越强烈。人类现有知识绝大部分是以文本为载体的,如何让计算机更好地从文本中自动获取知识,一直是知识工程领域需要解决的难题之一。本文围绕文本知识学习映射展开了讨论和研究。首先介绍了文本结构分析和文本本体学习方法,主要针对文本的物理结构和逻辑结构,本体学习的概念、原理、方法等做了详细阐述,并提出了一种基于TFIDF(词频,逆文档频率)的中文文本特征抽取算法。接着本文提出了基于句型规则的自举本体学习方法,介绍了整个方法的框架,并对在这个框架下的几个关键的技术问题,包括文本预处理、本体片断的定义、句型规则的语法,分别做了更为详细的介绍。基于对文本单元向知识单元转化的模型和映射算法的分析,本文开发了中文文本知识抽取系统,并进行了实验分析,得到了一些有意义的结果,初步验证了文本知识学习映射方法,另外本文分析了影响结果的因素。最后,基于文章的核心——文本特征获取以及基于句型规则的自举本体学习,本文对进一步工作做了探讨和展望。本文的创新工作和结果主要有:(1)改进了基于海量智能分词的中文自动分词算法,为文本特征抽取打下基础;(2)将以词权重作为文本特征进行奇异值分解的思想运用到文本知识的获取中,并建立了一些的句型规则语法;(3)设计并实现了中文文本知识获取系统,对本文提出的方法进行了有效验证。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 研究内容的提出
  • 1.3 本文的研究工作
  • 第二章 文本本体学习方法
  • 2.1 文本物理结构分析模型
  • 2.1.1 文本特征抽取和表示
  • 2.1.2 基于潜在语义分析的特征向量提取
  • 2.1.3 文本物理结构分析模型
  • 2.2 文本逻辑结构分析模型
  • 2.2.1 文本层次研究综述
  • 2.2.2 文本层次分析
  • 2.2.3 文本聚类策略
  • 2.2.4 文本结构树分析
  • 2.3 文本本体学习方法
  • 2.3.1 研究背景
  • 2.3.2 文本本体学习存在的问题
  • 2.3.3 基本原理与架构
  • 2.3.4 基本方法
  • 2.4 知识单元的概念及其评价研究
  • 2.4.1 知识单元的概念
  • 2.4.2 知识单元的比较与评价
  • 第三章 知识单元转换的映射算法
  • 3.1 本体的形式化定义
  • 3.2 基于句型规则的自举本体学习方法
  • 3.3.1 方法的框架
  • 3.3.2 方法分析
  • 3.4 本体片断
  • 3.5 构建句型规则
  • 3.6 句型规则语法
  • 3.7 本章小结
  • 第四章 中文文本知识获取系统的设计与实现
  • 4.1 文本单元获取
  • 4.1.1 中文自动分词新算法
  • 4.1.2 基于VSM的文本表示及特征项权重计算
  • 4.1.3 潜在语义分析
  • 4.2 中文本体学习
  • 4.2.1 本体与知识库的区别
  • 4.2.2 知识单元获取
  • 4.3 本章小结
  • 第五章 结论与展望
  • 5.1 工作总结和创新之处
  • 5.2 进一步研究方向
  • 致谢
  • 参考文献
  • 研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    文本单元向知识单元转化的模型与映射算法
    下载Doc文档

    猜你喜欢