分布式银行网站网页信息获取系统实现

分布式银行网站网页信息获取系统实现

论文摘要

近几年来,互联网迅猛发展,网络中流通的Web信息量巨大,其中各国银行网站发布的信息更是受到金融界的广泛关注。对互联网上各国银行网站发布的汇率、利率等财政信息进行长期的统计,也就成为了解其他国家财政、经济政策的一种主要手段。针对当前的实际需求,对网页信息获取及计算技术的研究成为当前和未来一段时期内学术研究的重点。做为我国央行的人民银行,在此方面投入了大量的科研资金,各个地方人民银行也积极地进行这方面的研究工作。针对这一情况,本文展开了基于广域网的分布式银行网站网页信息获取系统的研究与实现。网页信息获取系统(网络爬虫)研究中最重要的是设计构架和关键技术的解决。在吸取了他人技术和经验的基础上,本文设计描述了一个基于广域网的分布式网络爬虫的结构设计,其中包括硬件的构架,和软件的模块划分。硬件部分由一台PC机做控制节点,N台PC机做爬行节点,在广域网中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。然后本文分析了分布式网络爬虫的关键技术的解决方法,比如分布式的各个结点如何协同工作,任务如何分配等等,进而提出了一些实用的算法,解决了这些分布式网络爬虫的关键技术,实现了一个具备健壮性,可扩展性,可配置性的分布式网络爬虫,并就该分布式网络爬虫进行了仔细的剖析。特别是对分布式系统的任务分配,采用了网络性能指标指导预测效果法。最后在该网络爬虫上作了一些测试,包括了单机爬行测试和该网络爬虫的一个应用,即银行网站网页信息的抓取测试。以及对多种分布式系统任务分配的方法指导下实际运行的效果进行了对比,得出网络性能指标指导预测效果法为最佳的任务调度方法。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的背景及研究目的
  • 1.2 与课题相关的国内外研究综述
  • 1.2.1 网页信息获取技术国外发展现状
  • 1.2.2 国内相关工作
  • 1.2.3 银行网站信息获取技术国内外的应用现状
  • 1.3 本课题研究的主要内容
  • 1.4章 节安排
  • 第2章 分布式网页信息获取系统的相关技术
  • 2.1 预测抓取效果所用网络性能指标的合理性及测量方法
  • 2.2 预测所用网络性能指标的数据分布特征及统计方法
  • 2.3 网络通讯接口技术
  • 2.4 本章小结
  • 第3章 分布式网页信息获取系统的设计
  • 3.1 系统需求分析
  • 3.2 系统总体功能结构设计
  • 3.3 接口设计
  • 3.4 模块设计
  • 3.5 本章小结
  • 第4章 分布式网页信息获取系统的实现
  • 4.1 系统实现
  • 4.1.1 公共接口的实现
  • 4.1.2 单机爬虫的实现
  • 4.2 系统运行界面
  • 4.2.1 单机爬虫结果抓图
  • 4.2.2 测量可用带宽及RTT数据结果图
  • 4.3 本章小结
  • 第5章 系统运行测试
  • 5.1 系统测试环境介绍
  • 5.1.1 软件条件
  • 5.1.2 硬件设施条件
  • 5.2 分布式系统中各个单结点抓取效果差异测试
  • 5.3 性能测试
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].起步阶段的网页信息资源长期保存[J]. 上海档案 2012(02)
    • [2].试论计算机网页设计中图形设计的处理运用[J]. 河北农机 2019(06)
    • [3].高校重要网页信息采集归档实践探析[J]. 浙江档案 2017(09)
    • [4].《网页信息展示》[J]. 美苑 2015(S2)
    • [5].高校网页翻译特点、难点及英译经验总结[J]. 校园英语 2017(12)
    • [6].分类加权的TF-IDF的网页分类算法[J]. 数码世界 2017(07)
    • [7].面向BIU的网页解析[J]. 科学中国人 2017(23)
    • [8].基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用[J]. 计算机应用与软件 2017(02)
    • [9].网页信息呈现方式影响用户决策研究述评[J]. 经营与管理 2016(11)
    • [10].基于本体思想的网页信息抽取方法[J]. 计算机与现代化 2015(09)
    • [11].基于“控制字符”网页信息的隐藏技术[J]. 福建电脑 2014(06)
    • [12].知识管理背景下网页信息档案化管理的思考[J]. 兰台世界 2011(15)
    • [13].国外网页信息存档项目及相关问题研究[J]. 图书馆建设 2009(12)
    • [14].浅谈现代网页设计与制作[J]. 吉林交通科技 2010(02)
    • [15].基于可视块的多记录型复杂网页信息提取算法[J]. 计算机科学 2019(10)
    • [16].计算机图像处理技术在网页设计中的运用[J]. 计算机产品与流通 2017(08)
    • [17].计算机网页设计中的布局与排版研究[J]. 现代信息科技 2018(06)
    • [18].网站管理地址泄露下网页信息快速加密仿真[J]. 计算机仿真 2017(05)
    • [19].页面美术使用技巧在网页设计中的应用分析——以学校网络中心为例[J]. 美术文献 2018(12)
    • [20].网页设计的艺术性分析[J]. 明日风尚 2018(03)
    • [21].网页设计中计算机图像处理技术的应用[J]. 美术文献 2018(08)
    • [22].试论网页设计中计算机图像处理技术[J]. 信息与电脑(理论版) 2018(07)
    • [23].浅析网页设计中的色彩运用[J]. 艺术科技 2017(10)
    • [24].以营销为导向的企业网页信息翻译探究[J]. 浙江海洋学院学报(人文科学版) 2012(03)
    • [25].网页设计中动态多元素应用[J]. 无线互联科技 2018(24)
    • [26].基于R语言爬虫技术的网页信息抓取方法研究——以抓取二手房数据为例[J]. 科技风 2019(06)
    • [27].网页设计中的色彩搭配及技巧[J]. 黑龙江纺织 2019(01)
    • [28].新时期网页设计中计算机图像处理技术的应用[J]. 信息与电脑(理论版) 2018(11)
    • [29].浅析网页设计中图形信息的有效传达[J]. 当代旅游 2019(12)
    • [30].基于文档对象模型结构聚类的钓鱼网页检测方法[J]. 科学技术与工程 2018(23)

    标签:;  ;  ;  

    分布式银行网站网页信息获取系统实现
    下载Doc文档

    猜你喜欢