论文摘要
随着互联网的快速发展和信息需求的变化,适用于所有用户的综合性的通用搜索引擎显然已经不能满足用户更深入的查询需求,用户对信息的需求往往是针对某个领域和面向特定主题的,在这些方面综合性搜索引擎的召回率和精确率都是很低的。面向主题的搜索引擎的目的是提供分类精确、数据全面、更新及时的搜索服务,这就对搜索引擎中负责收集网页的网络爬虫提出了新的要求,主题爬行随之应运而生。主题爬行的目的是收集互联网中那些与主题领域相关的网页,它是面向主题搜索引擎一个关键的组成部分。主题爬行中最重要一个步骤是要在进行网页收集的过程当中判断沿着哪些链接可以到达属于目标主题的网页,以此来达到高效的收集网页的目的。在主题爬行的过程当中存在着一种隧道问题,干扰了主题爬行有效的对链接的选择,从而影响了收集主题相关网页的效率和覆盖率。本文提出了网页连通信息的相关概念用来反映现实网络的网页分布与连通情况,提出和分析了几种建立网页连通信息的方法,并在此基础上提出了基于网页连通信息的主题爬行技术,它是一种利用各个主题网页之间的连通信息来解决隧道问题的技术。比较试验表明这种方法可以帮助主题爬行器穿越隧道区域达到主题相关的区域,使主题爬行器有更高的效率和更广的覆盖率。最后针对这个方法的不足也提出了可能的改进方向。