论文摘要
随着Internet的快速发展,网络已经普及到社会的每一个角落。人们的日常行为和生活,越来越依赖于网络提供的信息。搜索引擎正是为大众提供便捷的搜索服务,成为提供网络信息资源的最佳工具。而搜索引擎的核心组成之一网络爬行器,能够下载海量的互联网页,并交给搜索引擎进行处理,以便于将信息提供给用户。因此,网络爬行器的研究成为科学界研究的重点。传统的分布式系统框架存在很多的问题,所以MapReduce这一新的分布式框架便应运而生,逐渐开始得到了人们的重视。本论文正是基于MapReduce框架,设计了一款全新的分布式网络爬行器。针对分布式网络爬行器技术的研究,本文在国内外相关研究的基础上,重点研究了以下两个关键技术与实现:首先,现有的分布式网络爬行器技术,一般在链接调度方面有很大的问题,不能够满足任务分配的一致性。本文研究了基于动态哈希树的链接调度算法,从根本上解决了任务分配的一致性问题,并通过实验证明了任务分配的有效性,证明新的链接调度算法,能够更好的服务于搜索引擎系统。其次,在分布式系统中,需要有海量的被调度的链接信息进行存储操作。而现有分布式网络爬行器系统中,一般采用多级缓存模式,需要设计精巧的数据结构来进行存储操作。本文提出了一种基于改进Trie树和文件池的二级缓存模式,增加了异步归并和批处理工作模式,在节省了内存使用空间的同时,提高了调度信息处理的速度与效率。最后,本文实现了一个基于MapReduce模型下的分布式网络爬行器系统。理论和实践均证明,应用本文研究的关键技术,能够提高爬行器系统的性能,使其能够满足互联网下网页下载的需要。
论文目录
相关论文文献
- [1].测录井公司创集团公司爬行器测井最大井斜纪录[J]. 江汉石油科技 2015(03)
- [2].机械管道探测爬行器结构设计及分析[J]. 机械设计与制造 2018(06)
- [3].爬行器测井安全评估数学模型分析[J]. 应用力学学报 2019(04)
- [4].网络爬行器的分布式设计[J]. 计算机工程 2009(04)
- [5].壁管爬行器设计研究[J]. 科技风 2011(11)
- [6].石油测井爬行器的维护及常见故障排除[J]. 石油和化工设备 2019(06)
- [7].水平井爬行器回拉力学模型与分析[J]. 机械科学与技术 2019(10)
- [8].爬行器驱动轮正压过程分析[J]. 清华大学学报(自然科学版) 2019(07)
- [9].EMTT61型爬行器拖拽实验探讨[J]. 机械工程师 2016(03)
- [10].海底管道电动爬行器密封技术研究[J]. 液压与气动 2010(02)
- [11].基于伪爬行器的主题式元搜索引擎研究与设计[J]. 计算机工程 2008(22)
- [12].井下传送新技术(Downhole Conveyance):超强电缆和井下爬行器[J]. 测井技术 2011(01)
- [13].X射线爬行器磁定位系统在管道检测中的应用[J]. 石油工程建设 2012(01)
- [14].自适应管道缺陷检测爬行器结构设计[J]. 机电工程技术 2020(02)
- [15].Sondex水平井井下爬行器的研究与应用[J]. 石油钻采工艺 2008(05)
- [16].蠕动式石油井下爬行器液压系统的设计与研究[J]. 机电工程 2019(03)
- [17].长输管道射线检测中心法透照设备性能改进[J]. 电子世界 2013(16)
- [18].维、哈、柯多文种搜索引擎中网页爬行器(Crawler)的设计与实现[J]. 新疆大学学报(自然科学版) 2009(01)
- [19].船体大合拢焊缝超声自动检测爬行器控制系统[J]. 机械工程师 2013(05)
- [20].推拿手法结合爬行器训练治疗腰椎间盘突出症的临床效果[J]. 中国医药导报 2018(33)
- [21].水平井开发测井中的Sondex爬行器应用[J]. 云南化工 2019(06)
- [22].推拿手法结合爬行器训练治疗腰椎间盘突出症的临床研究[J]. 中华中医药杂志 2019(08)
- [23].轮式超声波检测爬壁机器人稳定性分析[J]. 机械设计与研究 2016(05)
- [24].一种新的面向主题的爬行算法[J]. 计算机应用研究 2009(05)
- [25].需求驱动的主题爬行技术研究[J]. 图书情报工作 2011(13)
- [26].多用途智能爬行器的研制[J]. 无损检测 2011(03)
- [27].压裂爬行器研制[J]. 石油矿场机械 2011(07)
- [28].一种夹轨爬行器研究[J]. 装备制造技术 2015(04)
- [29].水平井爬行器中电永磁吸盘的设计与优化[J]. 中国机械工程 2019(04)
- [30].多用途智能爬行器控制系统设计[J]. 无损检测 2011(04)