基于Groovy的分布式网络爬虫系统的设计与实现

基于Groovy的分布式网络爬虫系统的设计与实现

论文摘要

随着Internet的发展壮大,人们获取信息的途径逐渐被网络所替代,同时网络信息的增长也达到了惊人的速度。在实际应用中,用户往往有着自己的浏览习惯及特定的主题敏感性,通用网络爬虫难免无法满足类似个性化的信息收集需要,现有的主题爬虫也有着种种弊端。论文通过分析总结主题页面在Web上的分布特征,设计并实现了一个Windows环境下的分布式的可定制主题爬虫系统CTCS (Customizable topic crawler system)。论文阐述了CTCS系统的工作环境、网络拓扑结构、子系统及其功能模块和工作流程,以及各子系统间通信接口的设计,对CTCS系统的各子系统的设计和实现都进行了详细的论述,包括大量的系统难点分析及解决方案。论文详细说明了CTCS系统实现中的一些特点:(1)在人工定制的过程中,抛弃了传统的纯数据项配置文件,将Groovy脚本引入配置,使得逻辑表达可出现在配置中,提高了配置的灵活性以及爬虫抓取数据的精度和速度。(2)利用基于HTTP协议网络通信下的客户端状态保持方式,实现了持有状态的HTTPClient组件,很大程度满足了对Deep Web数据抓取的要求。(3)使用Java RMI (Remote method invocation)构建了一整套灵活的分布式解决方案,此方案不仅仅支持爬虫系统,还可通过配置作为其它分布式业务的解决方案。(4)系统中引入日志中心的概念,将日志汇总并丌发预警功能,极大的方便了系统的开发和维护。论文的最后,对系统的运行效果进行了介绍。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景与意义
  • 1.2 国内外研究现状
  • 1.3 本论文研究内容及章节安排
  • 1.3.1 研究内容
  • 1.3.2 章节安排
  • 第2章 相关技术基础
  • 2.1 网络爬虫系统简介
  • 2.2 主题页面分布特征
  • 2.3 HTTP通信协议
  • 2.3.1 HTTP协议简介
  • 2.3.2 HTTP请求方式
  • 2.3.3 HTTP响应状态
  • 2.4 脚本语言介绍
  • 2.5 本章小结
  • 第3章 网络爬虫系统CTCS的需求分析
  • 3.1 项目概述
  • 3.2 系统目标及功能需求
  • 3.2.1 系统目标
  • 3.2.2 系统功能需求
  • 3.3 运行环境需求
  • 3.3.1 系统运行平台需求
  • 3.3.2 系统运行环境分析
  • 第4章 网络爬虫系统CTCS的设计
  • 4.1 系统结构设计
  • 4.1.1 系统体系结构
  • 4.1.2 系统拓扑结构
  • 4.2 各子系统的模块划分与设计
  • 4.2.1 爬虫终端子系统
  • 4.2.3 调度中心子系统
  • 4.2.4 数据中心子系统
  • 4.2.5 日志及监控子系统
  • 4.3 各子系统内部工作流程
  • 4.3.1 爬虫终端子系统工作流程
  • 4.3.2 调度中心子系统工作流程
  • 4.3.3 数据中心子系统工作流程
  • 4.3.4 日志及监控子系统工作流程
  • 4.4 各子系统间通信接口设计
  • 4.5 本章小结
  • 第5章 网络爬虫系统CTCS的详细设计与实现
  • 5.1 开发平台与工具
  • 5.2 爬虫终端子系统的实现
  • 5.2.1 HTTP通信模块的实现
  • 5.2.2 HTML解析模块的实现
  • 5.2.3 Groovy脚本驱动模块的实现
  • 5.2.4 多线程控制模块的实现
  • 5.2.5 XML构造解析模块的实现
  • 5.2.6 内部通信模块的实现
  • 5.2.7 系统日志模块的实现
  • 5.3 调度中心子系统的实现
  • 5.3.1 配置信息管理模块
  • 5.3.2 RMI交互模块
  • 5.3.3 任务负载平衡管理模块
  • 5.3.4 爬虫终端进程管理模块
  • 5.3.5 运行状态管理模块
  • 5.4 日志及监控子系统的实现
  • 5.4.1 日志Web接口模块的实现
  • 5.4.2 日志报告生成模块的实现
  • 5.4.3 预警监测模块的实现
  • 5.4.4 邮件处理模块的实现
  • 5.5 本章小结
  • 第6章 系统运行及效果
  • 6.1 系统运行环境
  • 6.2 系统运行效果
  • 6.2.1 调度中心子系统的运行效果
  • 6.2.2 爬虫终端子系统的运行效果
  • 6.2.3 数据中心子系统的运行效果
  • 6.2.4 日志及监控子系统的运行效果
  • 总结与展望
  • 总结
  • 工作展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表的论文及科研成果
  • 相关论文文献

    • [1].关于CTCS2系统设备的改进建议[J]. 郑铁科技通讯 2009(02)
    • [2].自主化CTCS-3级列控系统技术创新及装备研制[J]. 铁路通信信号工程技术 2018(04)
    • [3].兼容多个CTCS等级运行功能要求的列控车载设备实现方案的探讨[J]. 铁路通信信号工程技术 2017(01)
    • [4].Standard Analysis for Transfer Delay in CTCS-3[J]. Chinese Journal of Electronics 2017(05)
    • [5].CTCS应用等级定义与发展[J]. 铁路通信信号工程技术 2015(01)
    • [6].对中国列车控制系统(CTCS)介绍[J]. 中国新通信 2015(07)
    • [7].中国列车运行控制系统(CTCS)技术发展漫谈[J]. 铁道通信信号 2019(S1)
    • [8].高铁“走出去”对我国CTCS标准发展的借鉴[J]. 铁道通信信号 2018(04)
    • [9].CTCs在膀胱癌转移及预后评估中应用的研究[J]. 现代泌尿生殖肿瘤杂志 2017(02)
    • [10].CTCS各级系统中临时限速技术运用的探讨[J]. 科技信息 2011(16)
    • [11].外周血CTCs与前列腺癌临床特征的相关性[J]. 昆明医科大学学报 2020(01)
    • [12].关于CTCS-3级车地通信机制的分析探讨[J]. 铁路通信信号工程技术 2018(02)
    • [13].股道靠标停车困难的CTCS解决方案研究[J]. 铁路计算机应用 2017(10)
    • [14].减少CTCS-3无线链接超时报警件数[J]. 铁路采购与物流 2018(08)
    • [15].CTCS:中国高铁安全保护神[J]. 交通与运输 2017(02)
    • [16].浅谈我国铁路列控系统CTCS功能特点和发展[J]. 数字化用户 2013(06)
    • [17].浅谈“高速铁路CTCS系统”培训教学[J]. 科技信息 2010(08)
    • [18].CTCS-1级列控系统等级转换场景建模与验证[J]. 计算机工程与应用 2019(18)
    • [19].CTCS3-300T列控测速测距故障研究及对策[J]. 铁道标准设计 2018(06)
    • [20].CTCS2+ATO控制模式下的车地联动方案[J]. 电子技术与软件工程 2018(22)
    • [21].浅析CTCS系统与铁路行车安全及列车运行效率的关系[J]. 硅谷 2012(24)
    • [22].高速铁路自动驾驶技术研究与展望[J]. 铁道通信信号 2019(S1)
    • [23].CTCS-2级与CTCS-3级列控设备对比研究[J]. 河南科技 2018(25)
    • [24].简谈CTCS-3级列控系统无线链接超时问题[J]. 铁路通信信号工程技术 2018(03)
    • [25].京包客专呼台段CTCS-2贯通方案研究[J]. 铁路通信信号工程技术 2019(02)
    • [26].北京南站CTCS的应用[J]. 铁道通信信号 2014(01)
    • [27].CTCS-3级列控系统动车组车载设备故障判断及处理[J]. 郑铁科技通讯 2010(02)
    • [28].基于时间参数的CTCS-1级RDC设置方式的研究[J]. 北京交通大学学报 2019(02)
    • [29].CTCS-3级ATP无线通信技术自主化研究[J]. 中国铁路 2018(09)
    • [30].基于ITCS的CTCS-4级列控系统关键技术研究[J]. 铁道通信信号 2018(07)

    标签:;  ;  ;  

    基于Groovy的分布式网络爬虫系统的设计与实现
    下载Doc文档

    猜你喜欢