论文摘要
Internet技术的发展使网络中蕴含的信息资源和网络用户迅速激增,庞大的用户群催生了互联网的各种搜索应用。快速、高效、准确地检索信息,只靠单台计算机,无论是处理能力还是存储容量都无法胜任。若采用大型机,则效费比相对变低。因此,研究和开发廉价的搜索技术的需求越来越大,而近几年新兴的云计算技术无疑提供了一种契机。鉴于云计算的重要性,学术界和企业界均在开展相关技术的研究和应用,基于云计算的搜索引擎是其中重要的应用之一。基于此,本文在云计算开放平台hadoop的基础上开展了面向主题的分布式爬虫技术的研究,利用服务器搭建起hadoop应用环境,并在其上成功地实现了面向主题的爬虫系统。本文首先从云计算技术架构出发,探讨了云计算领域里最为著名的两个分布式文件系统;第二,对云计算领域常用的key/value数据库之一的Berkeley DB做了深入的研究;第三,对网络爬虫Heritrix做了详细的源代码分析,为以后改造Heritrix从而生成本系统的主题爬虫做好准备。在上述工作的基础上,本文提出了基于字典、文本分析和网页结构三个主题模型,基于这些主题模型,提出了面向主题的分布式爬虫系统的整体架构,确定了分布式爬虫系统的主控节点和爬虫子节点的内部架构,深入研究并应用了其中的关键技术,最终实现了该爬虫系统。在实验室提供的环境下,对整个系统所做的大量测试表明,该系统达到了设计目标,具有良好的可用性和可扩展性。
论文目录
摘要Abstract第1章 绪论1.1 课题研究背景1.2 本文的研究工作1.3 本文的组织结构第2章 相关理论与技术2.1 云计算技术架构2.1.1 Google分布式文件系统GFS2.1.2 hadoop分布式文件系统HDFS2.2 key/value数据库——Berkeley DB2.3 Heritrix分析2.4 数据的判重2.5 hadoop的使用2.5.1 配置ssh无密码访问2.5.2 安装hadoop2.6 本章小结第3章 面向分布式爬虫的主题模型关键技术研究3.1 基于字典的主题模型关键技术研究3.1.1 基于字典的主题模型的研究方案3.1.2 基于字典的主题模型的优缺点3.2 基于文本分析的主题模型关键技术研究3.2.1 基于文本分析的主题模型的整体结构3.2.2 文本相关度检查器的研究方案3.2.3 链接相关度检查的研究方案3.3 基于网页结构的主题模型关键技术研究3.3.1 主题模型的总体架构3.3.2 主题模型抽取器的研究方案3.3.3 主题相关度判别器的方案3.3.4 链接相关性判别器的研究方案3.4 本章小结第4章 分布式爬虫系统关键技术研究4.1 面向主题的分布式爬虫系统整体架构4.2 主控节点4.2.1 主控节点的整体架构4.2.2 URL判重4.2.3 主控节点的数据管理4.2.4 任务的分发4.3 爬虫子节点4.3.1 爬虫子节点的整体架构4.3.2 抓取数据格式信息4.4 本章小结第5章 面向主题的分布式爬虫系统设计与实现5.1 数据管理5.1.1 主控节点数据管理5.1.2 爬虫端数据管理5.1.3 HDFS中的数据管理5.2 主控节点功能设计与实现5.2.1 主控节点启动功能设计与实现5.2.2 主控节点启动爬虫的设计与实现5.2.3 主控节点管理模块设计与实现5.2.4 BloomFilter的设计与实现5.3 爬虫端的设计与实现5.3.1 配置管理5.3.2 爬虫的启动5.3.3 爬取线程设计5.3.4 处理器的设计与实现5.4 主题算法的实现5.4.1 基于字典的主题模型算法实现5.4.2 基于文本分析的主题模型算法实现5.4.3 基于网页结构的主题模型算法实现5.5 本章小结第6章 系统测试和分析6.1 系统测试环境6.1.1 硬件/软件环境6.1.2 软件环境安装6.2 系统评价机制6.3 系统性能测试及结果分析6.3.1 基于字典的主题模型算法的抓取结果及分析6.3.2 基于文本分析的主题模型算法的抓取结果及分析6.3.3 基于网页结构的主题模型算法的爬行结果及其分析6.3.4 主题爬虫系统与Heritrix爬虫的对比实验及其分析6.4 HDFS的抓取结果6.5 本章小结第7章 总结与展望7.1 工作总结7.2 下一步工作参考文献致谢研究生期间参与的项目及获奖情况
相关论文文献
标签:云计算论文; 数据库论文; 分布式爬虫系统论文; 主题模型论文;