论文摘要
随着互联网的高速发展,互联网上的数据也在超乎人想象的急剧增长,人们对数据和信息的需求也在持续的增长。搜索引擎可以帮助人们从海量的数据中检索出需要的信息和数据,所以搜索引擎已经成为人们日常生活中必不可少的工具之一,它也影响了人们日常的记忆习惯。通过分析当今全球主流的搜索引擎包括Google、百度、Yahool、Bing、搜狗等,我们发现这些主流的搜索引擎都包含了三个主要的部分:网络爬虫、索引、前端搜索,这三部分也是在工业界认可的三个主要部分。但是随着人们对信息的要求程度越来越高,目前搜索引擎的通用搜索已经不能满足人们的专门的需求,因为通用搜索引擎搜索结果信息量大,深度不够。基于此,垂直搜索大力发展起来。由于垂直搜索的专业性,以及对专属领域的深度,深受广大网民的青睐。强大的搜索引擎离不开数据的支持,而搜索引擎数据来源主要通过网络爬虫来获取,所以网络爬虫对于搜索引擎至关重要。本文面向垂直搜索引擎,搭建畅邮系统,提供通用搜索、图书搜索和视频搜索三种服务。首先,根据校园网络状况设计畅邮系统的架构,聚合三种服务于同一入口,并使畅邮系统能够实现不同网段的无缝访问。其次,调研当前主流开源网络爬虫,根据畅邮系统的需求选定Heritrix为网络爬虫原型,并分析其源码。在此基础上,对Heritrix进行高度定制,并解决异步加载抓取的问题。然后,根据Heritrix的运行状态和特点,设计并实现了适合垂直搜索引擎增量抓取的ChangyouSpider,它轻便、高效,以弥补Heritrix的不足,由此本文结合Heritrix和ChangyouSpider使用作为垂直搜索引擎抓取的网络爬虫。最后,对抓取的数据从全面性、杂质率、异步加载抓取、页面有效性的测试验证了爬虫的功能和性能。
论文目录
摘要ABSTRACT第一章 绪论1.1 背景与意义1.2 本文研究内容及贡献1.2.1 面临挑战1.2.2 提出问题1.2.3 解决方案1.3 论文组织结构第二章 相关技术研究2.1 搜索引擎相关技术2.1.1 网络爬虫2.1.2 索引技术2.1.3 排序技术2.2 本文用到的开源软件2.2.1 Jsoup2.2.2 Gson2.2.3 Nginx2.2.4 Varnish2.2.5 Lighttpd2.2.6 Tomcat2.3 爬虫选型2.3.1 Nutch2.3.2 Heritrix2.3.3 ChangyouSpider2.4 本章小结第三章 畅邮系统架构设计3.1 畅邮系统架构设计3.2 服务器选型3.2.1 负载均衡服务器3.2.2 缓存服务器3.2.3 web服务器3.2.4 图片服务器3.3 本章小结第四章 Heritrix源码分析4.1 Heritrix系统概况4.2 Heritrix系统源码分析4.2.1 Heritrix中央控制器4.2.2 Heritrix调度器4.2.3 Heritrix处理器链4.2.4 Heritrix多线程4.3 本章小结第五章 基于Heritrix爬虫系统的设计和实现5.1 基于Heritrix的爬虫系统设计5.1.1 图书搜索5.1.2 视频搜索5.2 基于Heritrix爬虫系统的实现5.2.1 基于图书抓取的Heritrix的定制5.2.2 基于视频抓取Heritrix的定制5.2.3 异步加载网页的处理和抓取5.3 抓取的更新策略5.3.1 图书抓取更新策略5.3.2 视频抓取更新策略5.4 自动化抓取5.5 爬虫报警机制5.6 本章小结第六章 ChangyouSpider系统的设计和实现6.1 ChangyouSpider系统架构6.2 ChangyouSpider工作流程6.2.1 数据的抓取6.2.2 数据的解析6.2.3 数据的处理6.3 ChangyouSpider自动化抓取6.4 本章小结第七章 抓取数据的验证7.1 测试环境7.1.1 测试环境平台7.1.2 测试指标和参数7.2 爬虫系统功能和性能验证7.2.1 抓取的全面性7.2.2 抓取的杂质率7.2.3 异步加载抓取的测试7.2.4 链接有效性7.3 本章小结第八章 总结与展望8.1 本文工作总结8.2 今后工作展望参考文献致谢攻读学位期间发表的学术论文和科研情况
相关论文文献
标签:垂直搜索引擎论文; 网络爬虫论文; 异步加载论文;