主题爬虫的研究与实现

论文摘要

通用搜索引擎,在很大程度上解决了人们在Web上查找信息的困难,但是随着信息多元化的增长,也存在着种种不足。如：查准率查全率低、内容相对陈旧、信息分布不平衡等。因此,主题搜索引擎应运而生,它专门为某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务。主题爬虫是主题搜索引擎的信息采集部分,负责对用户感兴趣的某一主题的网页进行抓取。因此,主题爬虫得到越来越多研究者的关注。本文对爬虫的工作原理和相关难点进行了分析,设计了主题爬虫的架构。通过对几种经典的主题采集策略的深入研究,提出了一种新的策略。该策略由页面主题判定和Url主题预测组成。页面主题判定是采用文本分类技术对已抓取到的网页进行主题相关性判定从而决定网页以及链接的取舍,Url主题预测为下一轮抓取选择主题相关的Url。将该策略应用到主题爬虫中,并对主题爬虫的种子注入、抓取、解析、文本训练、页面的主题判定、Url更新及主题预测几个组成部分加以实现。实验结果证明：主题爬虫能够稳定运行,并且与普通爬虫相比,有着更好的收获率。利用主题爬虫极大地减少了时间和存储空间,在时间上的优势保证了网页的及时更新。而且由于采集的内容单一,用户查找时得到的冗余和无用信息也较少。

论文目录

摘要

Abstract

第1章绪论

1.1 研究背景及意义

1.2 研究现状

1.3 研究内容及组织结构

第2章主题爬虫研究

2.1 爬虫工作原理

2.1.1 抓取策略

2.1.2 抓取权限

2.1.3 信息提取

2.1.4 动态网页的抓取

2.1.5 网页的更新

2.2 主题采集策略

2.2.1 基于网页内容的方法

2.2.2 基于Web链接分析的方法

第3章主题爬虫的设计

3.1 系统结构

3.2 数据结构

3.3 存储文件

3.3.1 文本文件

3.3.2 Url信息库

3.3.3 网页信息库

3.4 主题采集策略

第4章主题爬虫的实现

4.1 种子注入

4.2 抓取

4.2.1 HTTP文件抓取

4.2.2 FTP文件抓取

4.2.3 FILE文件抓取

4.3 解析

4.3.1 XML类文档解析

4.3.2 Microsoft DOC类文档解析

4.3.3 PDF文档解析

4.4 文本训练及页面的主题判定

4.5 Url更新及主题预测

第5章测试与分析

5.1 运行

5.2 测试

5.2.1 页面主题判定单元测试

5.2.2 Url主题预测单元测试

5.2.3 总体性能

第6章结束语

6.1 工作总结

6.2 进一步工作

参考文献

致谢

硕士期间发表的论文

主题爬虫的研究与实现

论文摘要

论文目录

相关论文文献