分布式网络爬虫技术的研究与实现

分布式网络爬虫技术的研究与实现

论文摘要

随着Web信息的急速膨胀,各项和Web有关的服务也都逐渐增多,Web信息在很多方面得到了广泛的应用,人们对于Web信息的要求也越来越高,使得专门负责Web信息采集的网络爬虫技术面临了一个巨大的挑战。国内外的一些大公司对这一问题已经有了很成熟的解决方案,并已投入使用,但是这些大型搜索引擎只能给大众用户提供一种普通的不可制定的搜索服务,它不可能考虑到所有用户的各式各样的需求,而单机的网络爬虫在很多情况下又难当重任,中型规模的网络爬虫以其灵活的可定制性和单机网络爬虫无法比拟的信息采集速度和规模,满足了人们日益增长的对Web信息的面向用户的需求,针对这一情况,本文展开了对国内外的网络爬虫技术的研究。网络爬虫研究中最重要的是设计构架和关键技术的解决。在吸取了他人技术和经验的基础上,本文设计描述了一个分布式网络爬虫的结构设计,其中包括硬件的构架,和软件的模块划分。硬件部分由一台PC机做控制节点,N台PC机作爬行节点,在局域网中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。然后本文分析了分布式网络爬虫的关节技术的解决方法,比如分布式的各个结点如何协同工作,任务如何分配,如何保持重要网页的时新性等等,进而提出了一些实用的算法,解决了这些分布式网络爬虫的关键技术,实现了一个具备健壮性,可扩展性,可配置性的分布式网络爬虫系统,并就该分布式网络爬虫系统进行了仔细的剖析。最后在该网络爬虫上作了一些测试,包括了普通爬行测试和该网络爬虫的一个应用,网站爬行的测试。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.1.1 搜索引擎的分类和整体结构
  • 1.1.2 网络爬虫研究现状
  • 1.2 工作意义及论文工作
  • 第2章 分布式网络爬虫基本构架
  • 2.1 设计目标
  • 2.2 分布式网络爬虫结构设计
  • 2.2.1 爬行节点的结构设计
  • 2.2.2 控制节点的结构设计
  • 2.3 本章小结
  • 第3章 分布式网络爬虫的关键技术
  • 3.1 种子集合的选取
  • 3.2 分布式策略
  • 3.2.1 分配策略分类
  • 3.2.2 分配策略比较
  • 3.2.3 任务分配粒度大小的选择
  • 3.2.4 分配函数的选择
  • 3.2.5 作为网站下载的网络爬虫的任务分配实现
  • 3.3 多线程下载
  • 3.3.1 多线程介绍
  • 3.3.2 多线程带来的问题及解决方法
  • 3.4 网页分析
  • 3.4.1 HTML中的标记
  • 3.4.2 页面链接的提取
  • 3.5 网页更新
  • 3.6 本章小结
  • 第4章 系统实现及实验评测
  • 4.1 系统实现
  • 4.1.1 分布式任务分配的实现
  • 4.1.2 单结点下载任务的实现
  • 4.2 系统评测
  • 4.2.1 普通爬行评测
  • 4.2.2 网站全站爬行评测
  • 4.2.3 本章小结
  • 结论
  • 参考文献
  • 哈尔滨工业大学硕士学位论文原创性声明
  • 哈尔滨工业大学硕士学位论文使用授权书
  • 哈尔滨工业大学硕士学位涉密论文管理
  • 致谢
  • 相关论文文献

    • [1].无线分布式网络认证密钥安全度量仿真研究[J]. 计算机仿真 2019(12)
    • [2].机动通信网分级分布式网络规划设计[J]. 通信技术 2020(02)
    • [3].大数据的分布式网络入侵实时检测仿真[J]. 计算机仿真 2018(03)
    • [4].分布式网络爬虫设计研究[J]. 现代计算机(专业版) 2017(24)
    • [5].分布式网络信息数据防篡改方法研究[J]. 计算机测量与控制 2017(09)
    • [6].分布式网络管理与技术探析[J]. 通讯世界 2016(17)
    • [7].中心化分布式网络爬虫研究[J]. 时代金融 2016(33)
    • [8].分布式网络管理体系研究[J]. 电子世界 2014(14)
    • [9].分布式网络入侵检测机制研究[J]. 数字技术与应用 2013(07)
    • [10].分布式网络雷达反隐身能力分析与仿真[J]. 电子信息对抗技术 2011(06)
    • [11].分布式网络管理及参考模型的研究与设计[J]. 电脑知识与技术 2009(21)
    • [12].分布式网络爬虫设计[J]. 湖南科技学院学报 2017(06)
    • [13].面向云服务器系统的分布式网络架构与技术研究[J]. 电信网技术 2017(08)
    • [14].分布式网络应用管理系统研究[J]. 电子技术与软件工程 2016(16)
    • [15].分布式网络攻击的应用研究[J]. 赤峰学院学报(自然科学版) 2014(16)
    • [16].石化工程分布式网络电力自动控制的实现方法与应用[J]. 通讯世界 2015(06)
    • [17].基于人机交互的警用分布式网络视频监控系统优化设计[J]. 数码世界 2020(07)
    • [18].分布式网络雷达及关键技术研究[J]. 微计算机信息 2010(06)
    • [19].分布式网络安全问题分析[J]. 地理空间信息 2010(01)
    • [20].分布式网络管理技术的研究[J]. 科技创新导报 2010(05)
    • [21].分布式网络环境下海洋大数据服务技术研究[J]. 海洋技术学报 2018(04)
    • [22].基于攻击传播性的分布式网络信任模型[J]. 运筹与管理 2017(07)
    • [23].一种分布式网络爬虫的设计与实现[J]. 江西师范大学学报(自然科学版) 2013(04)
    • [24].分布式网络管理综述[J]. 计算机光盘软件与应用 2012(15)
    • [25].基于防火墙的分布式网络入侵检测模型设计[J]. 微处理机 2011(03)
    • [26].基于“行政村”的分布式网络安全评估系统的研究[J]. 中原工学院学报 2010(01)
    • [27].分布式网络雷达低空探测能力评估[J]. 微计算机信息 2009(03)
    • [28].“分布式网络化作战”理论特征探析[J]. 四川兵工学报 2009(09)
    • [29].分布式网络化控制系统故障诊断方法的研究[J]. 控制与决策 2008(06)
    • [30].一种分布式网络雷达远程监控系统设计[J]. 空军雷达学院学报 2010(01)

    标签:;  ;  ;  

    分布式网络爬虫技术的研究与实现
    下载Doc文档

    猜你喜欢