论文摘要
通用搜索引擎,在很大程度上解决了人们在Web上查找信息的困难,但是随着信息多元化的增长,也存在着种种不足。如:查准率查全率低、内容相对陈旧、信息分布不平衡等。因此,主题搜索引擎应运而生,它专门为某一特定领域、某一特定人群或某一特定需求提供有一定价值的信息和相关服务。主题爬虫是主题搜索引擎的信息采集部分,负责对用户感兴趣的某一主题的网页进行抓取。因此,主题爬虫得到越来越多研究者的关注。本文对爬虫的工作原理和相关难点进行了分析,设计了主题爬虫的架构。通过对几种经典的主题采集策略的深入研究,提出了一种新的策略。该策略由页面主题判定和Url主题预测组成。页面主题判定是采用文本分类技术对已抓取到的网页进行主题相关性判定从而决定网页以及链接的取舍,Url主题预测为下一轮抓取选择主题相关的Url。将该策略应用到主题爬虫中,并对主题爬虫的种子注入、抓取、解析、文本训练、页面的主题判定、Url更新及主题预测几个组成部分加以实现。实验结果证明:主题爬虫能够稳定运行,并且与普通爬虫相比,有着更好的收获率。利用主题爬虫极大地减少了时间和存储空间,在时间上的优势保证了网页的及时更新。而且由于采集的内容单一,用户查找时得到的冗余和无用信息也较少。
论文目录
摘要Abstract第1章 绪论1.1 研究背景及意义1.2 研究现状1.3 研究内容及组织结构第2章 主题爬虫研究2.1 爬虫工作原理2.1.1 抓取策略2.1.2 抓取权限2.1.3 信息提取2.1.4 动态网页的抓取2.1.5 网页的更新2.2 主题采集策略2.2.1 基于网页内容的方法2.2.2 基于Web链接分析的方法第3章 主题爬虫的设计3.1 系统结构3.2 数据结构3.3 存储文件3.3.1 文本文件3.3.2 Url信息库3.3.3 网页信息库3.4 主题采集策略第4章 主题爬虫的实现4.1 种子注入4.2 抓取4.2.1 HTTP文件抓取4.2.2 FTP文件抓取4.2.3 FILE文件抓取4.3 解析4.3.1 XML类文档解析4.3.2 Microsoft DOC类文档解析4.3.3 PDF文档解析4.4 文本训练及页面的主题判定4.5 Url更新及主题预测第5章 测试与分析5.1 运行5.2 测试5.2.1 页面主题判定单元测试5.2.2 Url主题预测单元测试5.2.3 总体性能第6章 结束语6.1 工作总结6.2 进一步工作参考文献致谢硕士期间发表的论文
相关论文文献
标签:主题爬虫论文; 采集策略论文; 向量空间模型论文; 解析论文; 收获率论文;