通用搜索引擎,在很大程度上解决了人们在Web上查找信息的困难,但是随着信息多元化的增长,也存在着种种不足。如:查准率查全率低、内容相对陈旧、信息分布不平衡等。因此,主题搜索引擎应运而生,它专门为某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务。主题爬虫是主题搜索引擎的信息采集部分,负责对用户感兴趣的某一主题的网页进行抓取。因此,主题爬虫得到越来越多研究者的关注。本文对爬虫的工作原理和相关难点进行了分析,设计了主题爬虫的架构。通过对几种经典的主题采集策略的深入研究,提出了一种新的策略。该策略由页面主题判定和Url主题预测组成。页面主题判定是采用文本分类技术对已抓取到的网页进行主题相关性判定从而决定网页以及链接的取舍,Url主题预测为下一轮抓取选择主题相关的Url。将该策略应用到主题爬虫中,并对主题爬虫的种子注入、抓取、解析、文本训练、页面的主题判定、Url更新及主题预测几个组成部分加以实现。实验结果证明:主题爬虫能够稳定运行,并且与普通爬虫相比,有着更好的收获率。利用主题爬虫极大地减少了时间和存储空间,在时间上的优势保证了网页的及时更新。而且由于采集的内容单一,用户查找时得到的冗余和无用信息也较少。
本文来源: https://www.lw50.cn/article/22d26581ad2b90a9f3a61525.html