论文摘要
众所周知,自上世纪90年代中期开始,互联网以其信息生产的自主性、信息传播、获取的便捷性、地域覆盖的广泛性,辅以低廉的运行维护成本,迅速发展成为政务、商务、教育、娱乐等一系列重要社会活动的承载平台。互联网安全性越来越重要,成为典型的非传统安全。针对传统搜索引擎无法提供服务定制以及数据更新相对慢的缺陷,本文研制了一个简易的爬虫系统,可以用来完成用户下发的任务列表。与传统搜索引擎只有一个全局大任务相比,本文研究的系统只需对特定数量的网站进行抓取。通过针对限制搜索宽度(指定网站)以及深度(最大URL深度),来缩小搜索范围,以满足用户的实时反馈要求。进一步提高任务执行的并行性,我们将任务拆分成更细粒度的任务分片进行管理调度,同时采用了致性Hash算法提供爬虫的任务分配,该算法使得爬虫间任务负载尽量相等,同时最大限度地减小爬虫增减时的任务分片重新分配。对指定的一些网站,进行了长期的观察和测试,得出相应结果和系统性能。实验结果表明该爬虫子系统的单系统效率、可扩展性和健壮性优良。
论文目录
相关论文文献
- [1].机载分布式采集系统的实现[J]. 民航学报 2020(02)
- [2].微阵列式表面肌电采集系统的设计[J]. 传感技术学报 2020(06)
- [3].一款模块化可拓展式高密度肌电采集系统的设计[J]. 机械设计与研究 2020(04)
- [4].移动优先,敏捷生产——浅析移动采集系统在融合媒体流程再造过程中的作用[J]. 数字通信世界 2020(10)
- [5].终端计算机带宽信息远程集中采集系统的设计[J]. 广西电力 2016(05)
- [6].工作犬训练生理数值采集系统的研究与应用[J]. 中国工作犬业 2017(04)
- [7].基于单片机的语音实时采集系统设计[J]. 数码世界 2017(02)
- [8].用电信息采集系统发展新趋势研究[J]. 科学中国人 2017(05)
- [9].探讨船舶机电设备振动采集系统的故障诊断技术[J]. 珠江水运 2020(21)
- [10].基于低功耗蓝牙的足底压力采集系统设计[J]. 电子测量技术 2020(01)
- [11].实景天气采集系统技术实现与业务化应用[J]. 气象科技进展 2020(01)
- [12].耕地质量低空遥感-地面传感双重采集系统研究[J]. 华南农业大学学报 2020(03)
- [13].营销采集系统应用[J]. 中国科技信息 2016(22)
- [14].简述508XT采集系统的时间同步原理[J]. 中国石油和化工标准与质量 2016(23)
- [15].基于单片机的温室温湿度采集系统设计[J]. 自动化与仪器仪表 2017(03)
- [16].基于ZigBee技术的机载无线采集系统的设计[J]. 舰船电子工程 2017(06)
- [17].用电采集系统费控效率研究与优化[J]. 通讯世界 2016(10)
- [18].基于FPGA的高精度采集系统的研究与实现[J]. 电子测量技术 2020(19)
- [19].水计量无线采集系统的设计与实现[J]. 工业计量 2020(06)
- [20].基于分布式计算的电信联机采集系统设计[J]. 计算机与现代化 2013(01)
- [21].试析提高电力采集系统故障时刻精度的方法[J]. 中国新通信 2012(23)
- [22].利用地理信息化采集系统进行原有地形图数字化的方法与误差控制[J]. 建材与装饰(下旬刊) 2008(06)
- [23].关于室内环境因子测量采集系统的设计[J]. 电子质量 2020(02)
- [24].一种基于FPGA+DSP的水下声信号实时采集系统[J]. 电子制作 2020(09)
- [25].钻探参数实时采集系统研制与应用[J]. 探矿工程(岩土钻掘工程) 2020(06)
- [26].基于疫情信息采集系统汉字乱码技术的改进[J]. 中国医学装备 2020(10)
- [27].采集系统消除计量异常应用探析[J]. 数字通信世界 2018(06)
- [28].基于嵌入式的多路肌电信号采集系统的设计[J]. 生物医学工程研究 2017(01)
- [29].电力采集系统故障时刻精度的提高方法[J]. 电子制作 2016(21)
- [30].计费采集系统的设计与实现——以中国联通为例[J]. 经济研究导刊 2015(14)