论文摘要
随着信息技术的广泛普及和应用,人们对知识服务的需求越来越强烈。人类现有知识绝大部分是以文本为载体的,如何让计算机更好地从文本中自动获取知识,一直是知识工程领域需要解决的难题之一。本文围绕文本知识学习映射展开了讨论和研究。首先介绍了文本结构分析和文本本体学习方法,主要针对文本的物理结构和逻辑结构,本体学习的概念、原理、方法等做了详细阐述,并提出了一种基于TFIDF(词频,逆文档频率)的中文文本特征抽取算法。接着本文提出了基于句型规则的自举本体学习方法,介绍了整个方法的框架,并对在这个框架下的几个关键的技术问题,包括文本预处理、本体片断的定义、句型规则的语法,分别做了更为详细的介绍。基于对文本单元向知识单元转化的模型和映射算法的分析,本文开发了中文文本知识抽取系统,并进行了实验分析,得到了一些有意义的结果,初步验证了文本知识学习映射方法,另外本文分析了影响结果的因素。最后,基于文章的核心——文本特征获取以及基于句型规则的自举本体学习,本文对进一步工作做了探讨和展望。本文的创新工作和结果主要有:(1)改进了基于海量智能分词的中文自动分词算法,为文本特征抽取打下基础;(2)将以词权重作为文本特征进行奇异值分解的思想运用到文本知识的获取中,并建立了一些的句型规则语法;(3)设计并实现了中文文本知识获取系统,对本文提出的方法进行了有效验证。
论文目录
摘要Abstract第一章 绪论1.1 研究背景及意义1.2 研究内容的提出1.3 本文的研究工作第二章 文本本体学习方法2.1 文本物理结构分析模型2.1.1 文本特征抽取和表示2.1.2 基于潜在语义分析的特征向量提取2.1.3 文本物理结构分析模型2.2 文本逻辑结构分析模型2.2.1 文本层次研究综述2.2.2 文本层次分析2.2.3 文本聚类策略2.2.4 文本结构树分析2.3 文本本体学习方法2.3.1 研究背景2.3.2 文本本体学习存在的问题2.3.3 基本原理与架构2.3.4 基本方法2.4 知识单元的概念及其评价研究2.4.1 知识单元的概念2.4.2 知识单元的比较与评价第三章 知识单元转换的映射算法3.1 本体的形式化定义3.2 基于句型规则的自举本体学习方法3.3.1 方法的框架3.3.2 方法分析3.4 本体片断3.5 构建句型规则3.6 句型规则语法3.7 本章小结第四章 中文文本知识获取系统的设计与实现4.1 文本单元获取4.1.1 中文自动分词新算法4.1.2 基于VSM的文本表示及特征项权重计算4.1.3 潜在语义分析4.2 中文本体学习4.2.1 本体与知识库的区别4.2.2 知识单元获取4.3 本章小结第五章 结论与展望5.1 工作总结和创新之处5.2 进一步研究方向致谢参考文献研究成果
相关论文文献
标签:文本单元论文; 知识单元论文; 句型规则论文; 本体学习论文;