论文摘要
随着互联网的飞速发展,网络上的信息数量激增。面对着数量庞大、纷繁复杂的互联网信息,用户如何可以快速、准确并且全面地查找到自己所需要的信息已经成为一个非常重要的问题。传统的通用搜索引擎面对这一问题已经越来越力不从心,因为一味追求高覆盖率而造成了资源浪费,并且返回给用户的查询结果中经常包含用户不关心的网页。针对这些问题,垂直搜索引擎应运而生,它只收集与用户关心的主题相关的网页。主题爬虫是垂直搜索引擎的重要组成部分,它负责分析网页是否与主题相关和具体的抓取过程。主题爬虫有两个重要问题:如何判断一个待爬取网页是否与主题相关以及如何调度URL。针对这两个问题,本文在国内外相关研究的基础上,分别提出了一种解决方案:传统的基于内容评价的URL分析模型虽然准确率较高,但是效率较低,而且可能给予质量不高的网页较高的得分,而基于链接评价的URL分析模型却完全忽略了网页内容,容易造成“主题漂移”问题。本文将两者有机地结合在一起,并引入用户查询来修正主题描述,设计了一种内容评价与链接评价相结合的URL分析模型,通过实验证明了该模型在准确率等性能上的提高。现有的爬虫URL调度技术都存在着一定的问题,如易形成控制节点瓶颈、URL分配不均衡等。本文针对这些问题设计了一种面向多节点并行爬取的URL调度方案。该方案采用扩展bloom filter模型进行URL去重,采用一致性哈希进行URL分配,采用UDT协议进行URL批量传输。最后将这种方案应用于主题爬虫中,通过实验证明了该方案负载比较均衡,并且可以有效过滤重复的URL。
论文目录
摘要Abstract第1章 绪论1.1 课题研究背景1.2 课题研究意义1.3 论文研究内容1.4 论文组织结构第2章 主题爬虫URL分析模型及调度技术研究现状2.1 引言2.2 URL分析模型研究现状2.2.1 基于内容评价的模型2.2.2 基于链接评价的模型2.2.3 基于分类器预测的模型2.2.4 其它分析模型2.3 URL调度技术研究现状2.3.1 Larbin爬虫2.3.2 北大天网爬虫2.3.3 基于双哈希算法的调度2.3.4 基于GNP算法的调度2.4 本章小结第3章 内容评价与链接评价相结合的URL分析模型3.1 引言3.2 文档预处理过程3.2.1 中文分词3.2.2 特征提取3.2.3 权重计算3.3 内容评价与链接评价相结合的URL分析模型3.3.1 QM模型3.3.2 内容评价与链接评价相结合的URL分析模型3.4 实验结果与分析3.4.1 实验步骤3.4.2 实验结果3.4.3 实验分析3.5 本章小结第4章 面向多节点并行爬取的URL调度方案4.1 引言4.2 节点间URL调度方案4.2.1 URL去重4.2.2 URL主题相关性计算4.2.3 URL分配4.2.4 URL传输4.3 节点内URL调度方案4.3.1 DNS查询4.3.2 队列设置4.4 实验结果与分析4.4.1 实验步骤4.4.2 实验结果4.4.3 实验分析4.5 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果致谢
相关论文文献
标签:搜索引擎论文; 主题爬虫论文; 分析模型论文; 调度论文;