网站信息按需采集系统中爬虫子系统的设计与实现

网站信息按需采集系统中爬虫子系统的设计与实现

论文摘要

众所周知,自上世纪90年代中期开始,互联网以其信息生产的自主性、信息传播、获取的便捷性、地域覆盖的广泛性,辅以低廉的运行维护成本,迅速发展成为政务、商务、教育、娱乐等一系列重要社会活动的承载平台。互联网安全性越来越重要,成为典型的非传统安全。针对传统搜索引擎无法提供服务定制以及数据更新相对慢的缺陷,本文研制了一个简易的爬虫系统,可以用来完成用户下发的任务列表。与传统搜索引擎只有一个全局大任务相比,本文研究的系统只需对特定数量的网站进行抓取。通过针对限制搜索宽度(指定网站)以及深度(最大URL深度),来缩小搜索范围,以满足用户的实时反馈要求。进一步提高任务执行的并行性,我们将任务拆分成更细粒度的任务分片进行管理调度,同时采用了致性Hash算法提供爬虫的任务分配,该算法使得爬虫间任务负载尽量相等,同时最大限度地减小爬虫增减时的任务分片重新分配。对指定的一些网站,进行了长期的观察和测试,得出相应结果和系统性能。实验结果表明该爬虫子系统的单系统效率、可扩展性和健壮性优良。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究的背景
  • 1.2 国内外研究现状
  • 1.2.1 爬虫理论研究
  • 1.2.2 爬虫的具体实现方法
  • 1.3 研究的目的及意义
  • 1.4 本文的主要研究内容
  • 1.4.1 多任务管理和分配
  • 1.4.2 爬虫间负载均衡和爬虫加入退出处理
  • 1.4.3 并行爬虫的实现
  • 1.5 论文的构成
  • 第二章 关键技术研究
  • 2.1 问题陈述
  • 2.2 系统框架图
  • 2.3 爬虫系统的任务流图
  • 2.4 基础知识
  • 2.4.1 IP地址
  • 2.4.2 端口
  • 2.4.3 端客户机和服务器
  • 2.4.4 URL
  • 2.4.5 HTTP协议
  • 2.5 网页搜索引擎
  • 2.5.1 搜索引擎的发展现状与趋势
  • 2.5.2 搜索引擎的分类
  • 2.5.3 搜索引擎的工作原理
  • 2.5.4 网页搜索策略
  • 2.6 网络爬虫的种类
  • 2.7 网络爬虫的爬行策略
  • 2.8 通信库
  • 第三章 Master节点的设计与实现
  • 3.1 Master节点功能概述
  • 3.2 Master功能详细实现
  • 3.2.1 任务下发
  • 3.2.2 任务完成
  • 3.2.3 Worker节点加入
  • 3.2.4 Worker节点退出
  • 3.3 任务调度算法
  • 3.3.1 取模法
  • 3.3.2 一致性Hash算法
  • 第四章 Worker节点的设计
  • 4.1 Worker节点概述
  • 4.2 CrawlerManager设计
  • 4.3 Crawler的设计
  • 4.3.1 爬虫概述
  • 4.3.2 爬虫搜索策略
  • 4.3.3 爬虫搜索策略
  • 第五章 结论与展望
  • 5.1 爬虫测试
  • 5.1.1 单系统效率测试
  • 5.1.2 系统扩展性测试
  • 5.1.3 爬虫健壮性测试
  • 5.2 系统总结评价
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].机载分布式采集系统的实现[J]. 民航学报 2020(02)
    • [2].微阵列式表面肌电采集系统的设计[J]. 传感技术学报 2020(06)
    • [3].一款模块化可拓展式高密度肌电采集系统的设计[J]. 机械设计与研究 2020(04)
    • [4].移动优先,敏捷生产——浅析移动采集系统在融合媒体流程再造过程中的作用[J]. 数字通信世界 2020(10)
    • [5].终端计算机带宽信息远程集中采集系统的设计[J]. 广西电力 2016(05)
    • [6].工作犬训练生理数值采集系统的研究与应用[J]. 中国工作犬业 2017(04)
    • [7].基于单片机的语音实时采集系统设计[J]. 数码世界 2017(02)
    • [8].用电信息采集系统发展新趋势研究[J]. 科学中国人 2017(05)
    • [9].探讨船舶机电设备振动采集系统的故障诊断技术[J]. 珠江水运 2020(21)
    • [10].基于低功耗蓝牙的足底压力采集系统设计[J]. 电子测量技术 2020(01)
    • [11].实景天气采集系统技术实现与业务化应用[J]. 气象科技进展 2020(01)
    • [12].耕地质量低空遥感-地面传感双重采集系统研究[J]. 华南农业大学学报 2020(03)
    • [13].营销采集系统应用[J]. 中国科技信息 2016(22)
    • [14].简述508XT采集系统的时间同步原理[J]. 中国石油和化工标准与质量 2016(23)
    • [15].基于单片机的温室温湿度采集系统设计[J]. 自动化与仪器仪表 2017(03)
    • [16].基于ZigBee技术的机载无线采集系统的设计[J]. 舰船电子工程 2017(06)
    • [17].用电采集系统费控效率研究与优化[J]. 通讯世界 2016(10)
    • [18].基于FPGA的高精度采集系统的研究与实现[J]. 电子测量技术 2020(19)
    • [19].水计量无线采集系统的设计与实现[J]. 工业计量 2020(06)
    • [20].基于分布式计算的电信联机采集系统设计[J]. 计算机与现代化 2013(01)
    • [21].试析提高电力采集系统故障时刻精度的方法[J]. 中国新通信 2012(23)
    • [22].利用地理信息化采集系统进行原有地形图数字化的方法与误差控制[J]. 建材与装饰(下旬刊) 2008(06)
    • [23].关于室内环境因子测量采集系统的设计[J]. 电子质量 2020(02)
    • [24].一种基于FPGA+DSP的水下声信号实时采集系统[J]. 电子制作 2020(09)
    • [25].钻探参数实时采集系统研制与应用[J]. 探矿工程(岩土钻掘工程) 2020(06)
    • [26].基于疫情信息采集系统汉字乱码技术的改进[J]. 中国医学装备 2020(10)
    • [27].采集系统消除计量异常应用探析[J]. 数字通信世界 2018(06)
    • [28].基于嵌入式的多路肌电信号采集系统的设计[J]. 生物医学工程研究 2017(01)
    • [29].电力采集系统故障时刻精度的提高方法[J]. 电子制作 2016(21)
    • [30].计费采集系统的设计与实现——以中国联通为例[J]. 经济研究导刊 2015(14)

    标签:;  ;  ;  ;  

    网站信息按需采集系统中爬虫子系统的设计与实现
    下载Doc文档

    猜你喜欢