基于广度优先的主题爬虫的设计与实现

基于广度优先的主题爬虫的设计与实现

论文摘要

随着互联网的迅猛发展,海量的互联网信息以井喷的形式爆发出来。在这些互联网信息中蕴含着非常丰富的商业机会和人类智慧。网络搜索应用而生,并迅速成为计算机科学一个研究热点,如何尽可能搜索到满足需要的信息一直是软件开发人员的追求目标,以大型搜索引擎公司为主导的广泛搜索已经发展的非常成熟。并能够提供各种围绕数据搜索的服务。与此同时,各种基于互联网信息挖去的实际工程研究也逐步展开。但是面向无差别搜索的搜索引擎提供的数据往往是还有许多与研究需求无关的数据,特别是充斥了各种广告和不相关链接的网页使得最后的搜索结果和使用者的预判大相径庭。本文就此最基于不同主题需求的搜索程序在不用应用实践中的具体使用给出一个工程化可操作的实现。本文首先借用当前成熟的文本分析技术,对网站的内容做价值分析,并对给出的连接给出打分,考虑到工程化的原因文章只对高价值的链接的网站做二次挖掘和内容爬取,使得网络链接中存在着主题内容高度聚集进行成主题云团,而在工程上又可以实现。其次,考虑到主题团和主题云团之间链接薄弱的“隧道现象”容易形成所谓的“暗网络”现象。本文利用广度优先算法和动态文本关联度阀值的方法,借鉴现在互联网上成熟的Nutch爬虫技术和ICTCLAS中文文本分析技术,通过对网页数据存储、URL消重性能的优化,实现了一个基于广度优先的主题爬虫。虽然在实际的使用过程中爬虫需要依靠爬虫管理员数据修正和数据训练,完成特定主题内容的爬取工作。但从实际结果来看相对单纯的人员爬取数据,效率高整体质量也相当不错。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 网络爬虫的研究现状
  • 1.2 网络爬虫存在的问题
  • 1.3 本文的主要工作
  • 1.4 本文的篇章结构
  • 第二章 网络搜索技术
  • 2.1 本文技术设计思路
  • 2.2 网络搜索程序概述
  • 2.3 网络搜索中的隧道现象
  • 2.3.1 隧道现象简介
  • 2.3.2 隧道现象的一般解决策略
  • 2.4 暗网络
  • 2.4.1 暗网络简介
  • 2.4.2 暗网分类
  • 2.4.3 暗网的处理方法
  • 2.5 网页内容分析
  • 2.5.1 WEB页面的类型分析
  • 2.5.2 WEB页面的表示分析
  • 2.6 WEB页面分类模型
  • 2.6.1 WEB页面分类模型
  • 2.6.2 加权均衡的WEB页面分类
  • 2.6.3 ICTCLAS简介
  • 2.7 文本分析模块需求分析
  • 2.7.1 文本分词功能
  • 2.7.2 特征提取功能
  • 2.8 开源爬虫
  • 2.9 本文的工作流程
  • 第三章 广度优先主题爬虫的需求分析
  • 3.1 主题爬虫的需求分析
  • 3.2 主题爬虫的需求建模
  • 3.3 网页爬取模块需求分析
  • 3.4 URL的消重的需求分析
  • 3.4.1 标记树的建立流程
  • 3.4.2 文和超级链接的提取流程
  • 3.5 页面存储模块的需求分析
  • 3.6 Nutch软件
  • 第四章 基于广度优先主题爬虫的设计实现
  • 4.1 网络搜索程序的总体架构
  • 4.2 广度优先搜索方案实现
  • 4.2.1 广度优先搜索算法
  • 4.2.2 算法实现
  • 4.3 网络搜索程序的主要数据结构
  • 4.3.1 元数据
  • 4.3.2 WEB页面内容
  • 4.4 DNS缓存模块
  • 4.5 线程池工作模块
  • 4.6 URL分析模块
  • 4.7 数据库设计
  • 4.8 分词模块
  • 4.9 基于广度优先方案搜索程序的特点
  • 第五章 结论
  • 5.1 同类程序比较
  • 5.2 不足与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].借练习之力发展数学思维的深度和广度[J]. 基础教育研究 2019(06)
    • [2].追求生命的广度[J]. 考试与招生 2009(09)
    • [3].俄罗斯的广度与深度[J]. 世界博览 2017(21)
    • [4].该如何理解质的研究的推广度?[J]. 首都师范大学学报(自然科学版) 2013(03)
    • [5].如何理解质的研究的推广度[J]. 教育科学论坛 2013(04)
    • [6].贸易如何增长?——基于广度、数量与价格的三元分解[J]. 南方经济 2010(07)
    • [7].企业诚信失范之广度和深度分析[J]. 中国商贸 2014(23)
    • [8].言语产生中音韵编码的计划广度:来自图-词干扰范式的证据[J]. 心理科学 2020(02)
    • [9].数学课堂提问的三度:广度、力度和深度[J]. 小学时代(教育研究) 2013(17)
    • [10].不断推动学习实践科学发展观活动向深度和广度发展[J]. 实践(思想理论版) 2010(05)
    • [11].出口广度和出口深度研究评述[J]. 经济学动态 2010(07)
    • [12].出口深广度是否影响了出口企业的创新能力?[J]. 科学学与科学技术管理 2016(06)
    • [13].如何拓展新闻采访接地气的深度和广度[J]. 西部广播电视 2016(11)
    • [14].论决定侦查人员思维广度、深度与速度的品性[J]. 辽宁公安司法管理干部学院学报 2015(01)
    • [15].试论如何增加年鉴记述的广度和深度[J]. 新疆地方志 2013(03)
    • [16].浅析如何正确把握化学教学内容的深广度[J]. 吕梁教育学院学报 2012(02)
    • [17].无限长序列的周期与广度的关系[J]. 辽宁师范大学学报(自然科学版) 2010(04)
    • [18].中国靠什么实现了对美国出口的迅速增长——基于产品广度产品价格和产品数量的分解[J]. 世界经济研究 2009(04)
    • [19].教育的广度与深度[J]. 教育 2015(15)
    • [20].读写教学中训练学生思维的广度与深度[J]. 语文月刊 2014(10)
    • [21].金融广度:指标选择与政策建议[J]. 济南大学学报(社会科学版) 2014(03)
    • [22].要素市场扭曲、贸易广度与贸易质量——基于中国各省细分出口贸易数据的实证分析[J]. 国际贸易问题 2014(10)
    • [23].谈法学专业教学中“广度”与“深度”如何适应远程开放教育的特点[J]. 科技信息 2010(31)
    • [24].线上教学既要有深度也要有广度[J]. 人民教育 2020(Z2)
    • [25].思维的广度、梯度和深度[J]. 物理教学探讨 2015(09)
    • [26].中国外贸顺差的可持续性研究——基于价格、数量与广度的三元分解[J]. 经济评论 2010(03)
    • [27].“海洋”开发的广度和深度空间论[J]. 浙江海洋学院学报(人文科学版) 2009(04)
    • [28].《中国共产党廉洁自律准则》主旨的广度、力度、精度、新度解析[J]. 领导科学 2016(21)
    • [29].优化教学过程 提高学生思维的广度和深度[J]. 考试与评价 2018(01)
    • [30].给阅读插上广度的羽翼——对小学生阅读现状的一些思考[J]. 文理导航(下旬) 2010(08)

    标签:;  ;  ;  ;  ;  

    基于广度优先的主题爬虫的设计与实现
    下载Doc文档

    猜你喜欢