论文摘要
知识是世界经济蓬勃发展的重要因素,是人类社会文明传承和发扬的源泉。随着全球步入知识经济时代,知识已经成为国家经济发展、社会进步的可循环、利润回报非常丰厚的资源。互联网为信息的传播提供了广阔的平台,但却为广大用户搜索准确信息制造了障碍。网络正在飞速地蔓延到世界的各个角落,如何在浩瀚的信息资源中快速地摄取到最准确的知识是我们不得不面对的一个共同问题。检索效率随着检索技术的更新不断提升,但是检索结果始终达不到用户的预期。如何规范地组织知识成为人们关注的焦点。本体的出现为知识组织带来了契机。自从本体被引入到信息科学、人工智能领域,其在知识组织方面显现出独特的优势。随着各个学科的研究者对本体产生兴趣,本体逐渐被引入到医学、军事学、地理科学、农学等多个学科,本体的研究呈现百花齐放之势。经过10多年的不懈努力,本体的理论、方法和应用都得到了极大的丰富。但是,本体构建方法的多样性、领域区分性为本体的重用、共享带来了困难。只有规范本体构建方法,才能保证本体构建流程的顺利进行以及实现大规模本体构建。对本体构建方法的对比、总结并加以改进,能够在提高现有方法构建效率的基础上规范方法的执行,从而使得本体在知识组织方面的优势最大化,为知识的存储、分析、检索提供强有力的保障。本文以本体构建抽象方法为指导,把本体构建工作划分成概念获取、关系获取和形式化三个部分,在对叙词表和文本两种不同数据源进行综合运用的基础上,对文本中的信息进行了基于组词规则和N-gram算法的概念提取、基于扩展互信息和上下文信息的概念过滤、基于加权算法和信息熵的核心领域词汇的筛选、基于空间向量相似度的等级关系提取、基于语法规则和扩展关联规则的非等级关系提取和基于Jena的形式化处理,最后以测绘学叙词表和文献为例,基于以上方法构建了测绘学领域本体,对方法的可用性进行了实证研究。通过对基于语言学和统计学的概念提取方法以及基于字和词的相似度方法的对比,对互信息和关联规则方法的扩展,以及对加权算法和信息熵的综合,本文提供了一套构建本体的方法,并对现有的方法进行了改进,不仅丰富了本体构建的方法,而且为形成本体构建的一般方法提供参考。本文包括七章,除去引言和结论展望外,剩下的五章主要分为三个部分:第一部分(第l章)探讨本体及相关理论。首先对信息科学领域中本体的概念进行描述和界定,讨论了本体在知识描述、知识共享方面具备的特征;列举并描述了通用本体、顶级本体和领域本体等九种不同类型的本体;阐述并解释了概念、关系、函数、公理和实例五个本体的基本元素;详细描述了XML、RDF和OWL三种本体描述语言的规范、标签以及三者之间的联系;描述并评价了IDEF5法、TOVE法、骨架法和METHONTOLOGY法四种常见的本体构建抽象方法和规则匹配、N-gram算法、互信息、信息熵、关联规则和相似度六种常见的本体构建具体方法;最后对Protege和Jena两种构建工具及其优缺点进行了阐述。第二部分(第2、3、4章)分别对本体构建的概念提取、关系提取和形式化三大块进行方法探讨和实验分析。其中:第2章利用字符串函数和关系二维表的数据结构匹配和存储叙词,利用叙词表的编码规则实现映射,完成叙词由文本到数据库的结构转换。通过对叙词表切词和词性标注,提取最常用的叙词组词规则,利用叙词组词规则和N-gram算法提取文本概念,并描述了两种方法的算法,分析了两种方法计算的结果,将两种结果综合起来作为下一阶段的数据;对提取的概念进行了上下文和互信息过滤,并把两词互信息扩展到三、四词;最后对信息熵进行扩展,加入邻近词汇平均值后与加权算法一起筛选领域核心概念。第3章利用关系二维表将叙词表中的属、分和族等级关系进行结构转换。在叙词表等级关系的基础上,通过相似度算法邻近词汇的筛选以及基于字和词两种相似度的计算结果对比,将相似度阈值分成同级类平均相似度、父子类平均相似度和同父类的子类平均相似度三种,文本中的概念以这三种阈值为标准添加进本体层次模型。将用和代两种非等级添加进关系二维表。利用中文造句的语法规则分别把主语、谓语和宾语提取出来,并在关联规则的基础上加入平均值对三元组进行筛选,最后得到本体所有的三元组。第4章深入探讨了本体、OWL和语义之间的关系,指出具有语义的数据是指能够减少用户参与,增加数据内容自动分析的数据;论述了选择本体描述语言的方法;分析了手工和自动两种本体形式化方法;最后利用Jena对测绘学领域本体进行形式化处理。第三部分(第5章)构建了本体构建系统,提出了系统在分词、概念获取、关系获取和形式化方面的具体需求;对系统进行了总体设计和详细设计,总体设计中把系统分为概念提取模块、概念筛选模块、等级关系提取模块、非等级关系提取模块和领域本体形式化模块五大模块;详细设计中对每一模块的系统界面和功能进行了详细的论述。本文系国家社会科学基金重大项目“基于语义的馆藏资源深度聚合与可视化展示研究”(批准号:11&ZD152)的组成部分和研究成果之一。