基于MapReduce框架的分布式网络爬行器研究

基于MapReduce框架的分布式网络爬行器研究

论文摘要

随着Internet的快速发展,网络已经普及到社会的每一个角落。人们的日常行为和生活,越来越依赖于网络提供的信息。搜索引擎正是为大众提供便捷的搜索服务,成为提供网络信息资源的最佳工具。而搜索引擎的核心组成之一网络爬行器,能够下载海量的互联网页,并交给搜索引擎进行处理,以便于将信息提供给用户。因此,网络爬行器的研究成为科学界研究的重点。传统的分布式系统框架存在很多的问题,所以MapReduce这一新的分布式框架便应运而生,逐渐开始得到了人们的重视。本论文正是基于MapReduce框架,设计了一款全新的分布式网络爬行器。针对分布式网络爬行器技术的研究,本文在国内外相关研究的基础上,重点研究了以下两个关键技术与实现:首先,现有的分布式网络爬行器技术,一般在链接调度方面有很大的问题,不能够满足任务分配的一致性。本文研究了基于动态哈希树的链接调度算法,从根本上解决了任务分配的一致性问题,并通过实验证明了任务分配的有效性,证明新的链接调度算法,能够更好的服务于搜索引擎系统。其次,在分布式系统中,需要有海量的被调度的链接信息进行存储操作。而现有分布式网络爬行器系统中,一般采用多级缓存模式,需要设计精巧的数据结构来进行存储操作。本文提出了一种基于改进Trie树和文件池的二级缓存模式,增加了异步归并和批处理工作模式,在节省了内存使用空间的同时,提高了调度信息处理的速度与效率。最后,本文实现了一个基于MapReduce模型下的分布式网络爬行器系统。理论和实践均证明,应用本文研究的关键技术,能够提高爬行器系统的性能,使其能够满足互联网下网页下载的需要。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 论文研究的背景
  • 1.2 国内外研究现状
  • 1.3 论文研究内容
  • 1.4 论文组织结构
  • 第2章 分布式网络爬行器关键技术
  • 2.1 引言
  • 2.2 链接调度算法
  • 2.2.1 链接调度算法背景
  • 2.2.2 链接调度算法研究现状
  • 2.2.3 链接调度算法相关关键技术
  • 2.3 二级缓存算法
  • 2.3.1 二级缓存算法背景
  • 2.3.2 二级缓存算法研究现状
  • 2.3.3 二级缓存算法相关关键技术
  • 2.4 MapReduce编程框架
  • 2.4.1 MapReduce背景
  • 2.4.2 MapReduce研究现状
  • 2.4.3 MapReduce框架相关关键技术
  • 2.5 本章小结
  • 第3章 动态哈希树算法研究
  • 3.1 引言
  • 3.2 问题的提出
  • 3.3 动态哈希树算法基本原理
  • 3.3.1 动态哈希树算法的条件
  • 3.3.2 动态哈希树算法的数学描述
  • 3.3.3 动态哈希树算法的实现
  • 3.4 MapReduce任务分割函数
  • 3.5 实验结果与分析
  • 3.5.1 实验步骤
  • 3.5.2 实验结果
  • 3.5.3 实验对比分析
  • 3.6 本章小结
  • 第4章 基于Urltrie树的二级缓存算法研究
  • 4.1 引言
  • 4.2 问题的提出
  • 4.3 总体技术方案
  • 4.4 二级缓存算法方案
  • 4.4.1 改进UrlTrie树
  • 4.4.2 文件池
  • 4.5 实验结果与分析
  • 4.5.1 实验步骤
  • 4.5.2 实验结果
  • 4.5.3 实验对比分析
  • 4.6 本章小结
  • 第5章 网络爬行器系统设计与实现
  • 5.1 引言
  • 5.2 系统主要功能与总体架构
  • 5.2.1 系统主要功能
  • 5.2.2 系统总体架构
  • 5.3 系统主要模块设计与接口
  • 5.3.1 系统模块汇总
  • 5.3.2 抓取调度模块接口
  • 5.3.3 链接存储模块接口
  • 5.3.4 页面分析模块接口
  • 5.3.5 MapReduce与多线程工作框架研究
  • 5.4 系统总体执行流程图
  • 5.5 系统测试与性能分析
  • 5.5.1 系统功能测试
  • 5.5.2 系统性能分析
  • 5.6 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].测录井公司创集团公司爬行器测井最大井斜纪录[J]. 江汉石油科技 2015(03)
    • [2].机械管道探测爬行器结构设计及分析[J]. 机械设计与制造 2018(06)
    • [3].爬行器测井安全评估数学模型分析[J]. 应用力学学报 2019(04)
    • [4].网络爬行器的分布式设计[J]. 计算机工程 2009(04)
    • [5].壁管爬行器设计研究[J]. 科技风 2011(11)
    • [6].石油测井爬行器的维护及常见故障排除[J]. 石油和化工设备 2019(06)
    • [7].水平井爬行器回拉力学模型与分析[J]. 机械科学与技术 2019(10)
    • [8].爬行器驱动轮正压过程分析[J]. 清华大学学报(自然科学版) 2019(07)
    • [9].EMTT61型爬行器拖拽实验探讨[J]. 机械工程师 2016(03)
    • [10].海底管道电动爬行器密封技术研究[J]. 液压与气动 2010(02)
    • [11].基于伪爬行器的主题式元搜索引擎研究与设计[J]. 计算机工程 2008(22)
    • [12].井下传送新技术(Downhole Conveyance):超强电缆和井下爬行器[J]. 测井技术 2011(01)
    • [13].X射线爬行器磁定位系统在管道检测中的应用[J]. 石油工程建设 2012(01)
    • [14].自适应管道缺陷检测爬行器结构设计[J]. 机电工程技术 2020(02)
    • [15].Sondex水平井井下爬行器的研究与应用[J]. 石油钻采工艺 2008(05)
    • [16].蠕动式石油井下爬行器液压系统的设计与研究[J]. 机电工程 2019(03)
    • [17].长输管道射线检测中心法透照设备性能改进[J]. 电子世界 2013(16)
    • [18].维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现[J]. 新疆大学学报(自然科学版) 2009(01)
    • [19].船体大合拢焊缝超声自动检测爬行器控制系统[J]. 机械工程师 2013(05)
    • [20].推拿手法结合爬行器训练治疗腰椎间盘突出症的临床效果[J]. 中国医药导报 2018(33)
    • [21].水平井开发测井中的Sondex爬行器应用[J]. 云南化工 2019(06)
    • [22].推拿手法结合爬行器训练治疗腰椎间盘突出症的临床研究[J]. 中华中医药杂志 2019(08)
    • [23].轮式超声波检测爬壁机器人稳定性分析[J]. 机械设计与研究 2016(05)
    • [24].一种新的面向主题的爬行算法[J]. 计算机应用研究 2009(05)
    • [25].需求驱动的主题爬行技术研究[J]. 图书情报工作 2011(13)
    • [26].多用途智能爬行器的研制[J]. 无损检测 2011(03)
    • [27].压裂爬行器研制[J]. 石油矿场机械 2011(07)
    • [28].一种夹轨爬行器研究[J]. 装备制造技术 2015(04)
    • [29].水平井爬行器中电永磁吸盘的设计与优化[J]. 中国机械工程 2019(04)
    • [30].多用途智能爬行器控制系统设计[J]. 无损检测 2011(04)

    标签:;  ;  ;  ;  

    基于MapReduce框架的分布式网络爬行器研究
    下载Doc文档

    猜你喜欢