一种面向主题的分布式爬虫系统的研究与实现

论文摘要

Internet技术的发展使网络中蕴含的信息资源和网络用户迅速激增,庞大的用户群催生了互联网的各种搜索应用。快速、高效、准确地检索信息,只靠单台计算机,无论是处理能力还是存储容量都无法胜任。若采用大型机,则效费比相对变低。因此,研究和开发廉价的搜索技术的需求越来越大,而近几年新兴的云计算技术无疑提供了一种契机。鉴于云计算的重要性,学术界和企业界均在开展相关技术的研究和应用,基于云计算的搜索引擎是其中重要的应用之一。基于此,本文在云计算开放平台hadoop的基础上开展了面向主题的分布式爬虫技术的研究,利用服务器搭建起hadoop应用环境,并在其上成功地实现了面向主题的爬虫系统。本文首先从云计算技术架构出发,探讨了云计算领域里最为著名的两个分布式文件系统；第二,对云计算领域常用的key/value数据库之一的Berkeley DB做了深入的研究；第三,对网络爬虫Heritrix做了详细的源代码分析,为以后改造Heritrix从而生成本系统的主题爬虫做好准备。在上述工作的基础上,本文提出了基于字典、文本分析和网页结构三个主题模型,基于这些主题模型,提出了面向主题的分布式爬虫系统的整体架构,确定了分布式爬虫系统的主控节点和爬虫子节点的内部架构,深入研究并应用了其中的关键技术,最终实现了该爬虫系统。在实验室提供的环境下,对整个系统所做的大量测试表明,该系统达到了设计目标,具有良好的可用性和可扩展性。

论文目录

摘要

Abstract

第1章绪论

1.1 课题研究背景

1.2 本文的研究工作

1.3 本文的组织结构

第2章相关理论与技术

2.1 云计算技术架构

2.1.1 Google分布式文件系统GFS

2.1.2 hadoop分布式文件系统HDFS

2.2 key/value数据库——Berkeley DB

2.3 Heritrix分析

2.4 数据的判重

2.5 hadoop的使用

2.5.1 配置ssh无密码访问

2.5.2 安装hadoop

2.6 本章小结

第3章面向分布式爬虫的主题模型关键技术研究

3.1 基于字典的主题模型关键技术研究

3.1.1 基于字典的主题模型的研究方案

3.1.2 基于字典的主题模型的优缺点

3.2 基于文本分析的主题模型关键技术研究

3.2.1 基于文本分析的主题模型的整体结构

3.2.2 文本相关度检查器的研究方案

3.2.3 链接相关度检查的研究方案

3.3 基于网页结构的主题模型关键技术研究

3.3.1 主题模型的总体架构

3.3.2 主题模型抽取器的研究方案

3.3.3 主题相关度判别器的方案

3.3.4 链接相关性判别器的研究方案

3.4 本章小结

第4章分布式爬虫系统关键技术研究

4.1 面向主题的分布式爬虫系统整体架构

4.2 主控节点

4.2.1 主控节点的整体架构

4.2.2 URL判重

4.2.3 主控节点的数据管理

4.2.4 任务的分发

4.3 爬虫子节点

4.3.1 爬虫子节点的整体架构

4.3.2 抓取数据格式信息

4.4 本章小结

第5章面向主题的分布式爬虫系统设计与实现

5.1 数据管理

5.1.1 主控节点数据管理

5.1.2 爬虫端数据管理

5.1.3 HDFS中的数据管理

5.2 主控节点功能设计与实现

5.2.1 主控节点启动功能设计与实现

5.2.2 主控节点启动爬虫的设计与实现

5.2.3 主控节点管理模块设计与实现

5.2.4 BloomFilter的设计与实现

5.3 爬虫端的设计与实现

5.3.1 配置管理

5.3.2 爬虫的启动

5.3.3 爬取线程设计

5.3.4 处理器的设计与实现

5.4 主题算法的实现

5.4.1 基于字典的主题模型算法实现

5.4.2 基于文本分析的主题模型算法实现

5.4.3 基于网页结构的主题模型算法实现

5.5 本章小结

第6章系统测试和分析

6.1 系统测试环境

6.1.1 硬件/软件环境

6.1.2 软件环境安装

6.2 系统评价机制

6.3 系统性能测试及结果分析

6.3.1 基于字典的主题模型算法的抓取结果及分析

6.3.2 基于文本分析的主题模型算法的抓取结果及分析

6.3.3 基于网页结构的主题模型算法的爬行结果及其分析

6.3.4 主题爬虫系统与Heritrix爬虫的对比实验及其分析

6.4 HDFS的抓取结果

6.5 本章小结

第7章总结与展望

7.1 工作总结

7.2 下一步工作

参考文献

致谢

研究生期间参与的项目及获奖情况

一种面向主题的分布式爬虫系统的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢