基于网页连通信息的主题爬行技术研究与实现

论文摘要

随着互联网的快速发展和信息需求的变化,适用于所有用户的综合性的通用搜索引擎显然已经不能满足用户更深入的查询需求,用户对信息的需求往往是针对某个领域和面向特定主题的,在这些方面综合性搜索引擎的召回率和精确率都是很低的。面向主题的搜索引擎的目的是提供分类精确、数据全面、更新及时的搜索服务,这就对搜索引擎中负责收集网页的网络爬虫提出了新的要求,主题爬行随之应运而生。主题爬行的目的是收集互联网中那些与主题领域相关的网页,它是面向主题搜索引擎一个关键的组成部分。主题爬行中最重要一个步骤是要在进行网页收集的过程当中判断沿着哪些链接可以到达属于目标主题的网页,以此来达到高效的收集网页的目的。在主题爬行的过程当中存在着一种隧道问题,干扰了主题爬行有效的对链接的选择,从而影响了收集主题相关网页的效率和覆盖率。本文提出了网页连通信息的相关概念用来反映现实网络的网页分布与连通情况,提出和分析了几种建立网页连通信息的方法,并在此基础上提出了基于网页连通信息的主题爬行技术,它是一种利用各个主题网页之间的连通信息来解决隧道问题的技术。比较试验表明这种方法可以帮助主题爬行器穿越隧道区域达到主题相关的区域,使主题爬行器有更高的效率和更广的覆盖率。最后针对这个方法的不足也提出了可能的改进方向。

论文目录

提要

第一章绪论

1.1 主题爬行的提出

1.2 主题爬行的隧道问题

1.3 本文的主要工作

第二章主题爬行概述

2.1 主题爬行的关键技术

2.2 文本分类的必要知识

2.3 技术前景和应用方向

第三章基于网页连通信息的主题爬行

3.1 网页连通信息的定义和表示

3.2 基本网页连通信息

3.3 扩展基本网页连通信息

3.4 使用网页连通信息提高主题爬行

第四章基于网页连通信息的主题爬行的实现

4.1 系统工具

4.2 系统结构及流程

4.3 实现细节

4.3 实验步骤

第五章结论

5.1 实验分析

5.2 可能的改进

参考文献

摘要

ABSTRACT

致谢

导师及作者简介

基于网页连通信息的主题爬行技术研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢