基于本体的语义网爬虫的算法研究与应用实现

论文摘要

语义网是在万维网的基础上进行扩展形成的。语义网对网络中的数据加入语义信息以帮助语义网应用能够在语义层面对数据进行理解并进行处理。近些年,语义网飞速发展,符合语义网标准的语义信息数量迅速增长,对这些信息进行有效的处理和解析可以为用户提供高质量的服务。语义搜索引擎就是这样的一个典型的语义网应用,它充分利用语义信息,将语义信息有效的组织并提供给用户进行语义相关的查询。而语义专题搜索引擎则更加充分的发挥了语义信息的特点,利用语义分析将主题相关的信息进行组织和检索,最终为用户提供准确的搜索结果。在语义专题搜索引擎框架中,语义专题爬虫是重要的部件之一。它负责搜集与主题相关的语义信息并对其进行初步的处理,例如语义信息的分类、存储以及元数据的抽取等。语义专题爬虫面临的问题是,如何在海量的语义信息中准确高效的获得与主题相关的语义资源。语义专题爬虫需要对语义信息进行内容判断、计算语义信息与主题的相关性、筛选与主题相关的信息并保存到数据存储中。同时,语义专题爬虫的效率也是相关研究的主要内容之一。因此,针对语义专题爬虫的准确性和效率问题,本文分别提出了相应的方法予以解决。对于语义信息内容的主题相关性判断问题,本文提出了判断语义文档的主题相关度的方法。方法将语义文档和领域本体表示为图形结构并通过计算图形结构之间的相似度来判断文档的主题相关度。在优化语义专题爬虫的效率方面,本文提出了Q学习结合贝叶斯分类器的路径预测算法(以下简称QBLP算法),QBLP算法通过计算页面主题相关度来作为Q学习器的回报函数,并利用回报函数对贝叶斯分类器的先验概率和条件概率进行调整,使先验概率和条件概率逐步趋近于真实值,以此来提高爬虫获取主题相关语义文档的性能。除了对算法进行研究,本文基于上述算法实现了语义专题爬虫FOCSEW系统。论文在以下方面作了有益的探索和创新性工作。(1)基于最大概率密度的聚类方法。在语义文档的图形表示方法中,为了对语义文档中的所有代表实体的关键词进行语义消歧并组织成图形结构,本文提出了基于最大概率密度的聚类方法。一个关键词可以包含多重概念,关键词和其在具体文档中概念的对应关系具有一定的概率性。最大概率密度就是一种包含了这样的概率信息的语义距离衡量标准。本文以最大概率密度为基础进行基于密度的聚类形成簇,再将簇中的所有概念连接形成的图形结构作为语义文档的内容表示。(2)针对语义专题爬虫的路径调整算法进行了分析和阐述。面对大量位置分散的语义文档,对文档内容的分析以及爬行路径的预测和筛选显得非常重要。本文提出了利用WordNet本体作为指导的语义文档图形表示方法,方法可以准确的将语义文档的内容表示为图形结构。在此基础上,本文提出了由Q学习器通过学习为贝叶斯分类器提供先验概率的QBLP爬虫路径调整算法。QBLP方法通过累计语义文档和语义链接特征的知识,调整爬虫爬行路径,提高爬虫的性能。这个目标在实验中得到了验证。本课题是在语义网搜索引擎研究框架下的重点模块之一。语义专题爬虫主要的目标是搜集与主题相关的语义文档供用户通过语义搜索引擎进行查询。本文对与主题相关的语义资源进行搜索和筛选,对于信息的集成和检索有着积极的意义。实验证明本文阐述的算法以及实现的语义专题爬虫系统FOCSEW可以高效的搜索相关语义资源,为语义搜索引擎系统奠定了数据基础。

论文目录

摘要

Abstract

第1章绪论

1.1 课题背景和研究意义

1.2 语义网搜索引擎

1.3 搜索引擎中专题爬虫的几个关键问题

1.4 课题研究现状

1.4.1 万维网爬虫的现状总结

1.4.2 语义网爬虫的现状总结

1.4.3 研究现状的比较和分析

1.5 研究内容及创新点

1.6 本文的组织

第2章基于本体的语义网专题爬虫的系统架构

2.1 概述

2.2 面向语义网的专题爬虫的总体框架

2.3 本体概述

2.3.1 本体的概念

2.3.2 本体的描述语言

2.3.3 本课题涉及到本体的部分

2.4 核心模块功能概述

2.4.1 主题评估器

2.4.2 链接预测器

2.5 本章小结

第3章语义文档内容的表示和评估模块的设计

3.1 语义文档内容评估模块概述

3.2 语义文档表示

3.2.1 WordNet 词典

3.2.2 文档内容表示方法现状

3.2.3 基于图结构的表示方法

3.3 语义文档内容评估模块

3.3.1 指导本体的构建

3.3.2 基于图搜索的概念之间的语义距离计算

3.3.3 基于密度的聚类算法和文档语义消岐

3.4 实验结果及分析

3.4.1 实验一：语义距离计算

3.4.2 实验二：语义文档内容的判断

3.5 本章小结

第4章语义文档链接模型和链接预测算法

4.1 概述

4.2 语义文档链接模型

4.3 语义链接预测中的基本算法概述

4.3.1 Q 学习算法概述

4.3.2 朴素贝叶斯分类器

4.3.3 语义网专题爬虫中的应用场景

4.4 特征的选取

4.4.1 文档特征的选取

4.4.2 链接特征的选取

4.5 智能爬虫链接预测算法

4.6 实验以及结果分析

4.6.1 实验一：多次爬行召回率实验

4.6.2 实验二：一次爬行获取率实验

4.7 本章小结

第5章语义搜索引擎专题爬虫模块FOCSEW 系统实现

5.1 FOCSEW 系统整体设计

5.2 重点模块的实现

5.2.1 Q 学习算法实现模块

5.2.2 聚类算法的实现模块

5.3 领域本体构建

5.4 对语义网搜索引擎的支撑

结论与展望

参考文献

附录1 链接获取类和所有Scanner 的类图

附录2 抓取系统控制器部分的UML 图

附录3 聚类算法和Q 学习实现的类图

附录4 所有消费者（Consumer）的类图

附录5 系统的配置文件

攻读硕士学位期间所发表的学术论文

致谢

基于本体的语义网爬虫的算法研究与应用实现

论文摘要

论文目录

相关论文文献

猜你喜欢