搜索引擎中网络爬虫的研究

搜索引擎中网络爬虫的研究

论文摘要

搜索引擎作为信息检索技术在互联网时代的应用,使人们能够更有效的从互联网获取各种资源。但随着互联网的发展,传统的搜索引擎,即通用搜索引擎渐渐不能满足人们对信息检索服务日益增长的需求。近年来,面向主题的搜索引擎应运而生。本文围绕主题搜索引擎,对主题搜索引擎中占有重要地位的主题爬虫相关技术进行了研究和讨论。网络爬虫用来从互联网上抓取页面。通用爬虫会从一些种子链接开始,目标是获取互联网上所有的页面。而主题爬虫的目标是获取与特定主题内容相关的页面,因此除了具有通用爬虫的基本功能外,还需要对页面的内容和链接进行分析从而能够对爬虫爬行的路径进行指导和预测。主题网络爬虫选择什么样的爬行策略对互联网进行访问,直接影响着其爬行的效率。本文着重研究并改进了基于Context Graph的主题爬行算法,研究工作主要有以下几个方面:(1)研究了搜索引擎中通用网络爬虫和主题网络爬虫的技术原理、工作流程,着重分析了主题网络爬虫的主题爬行策略,对主题网络爬虫常用的基于链接分析的爬行策略和基于内容分析的爬行策略进行分析比较。(2)针对传统的主题爬行算法不能很好解决“隧道现象”的问题,本文详细介绍了一种基于Context Graph的主题爬行算法,它通过预测新抓取页面在Context Graph中所处的层次,能够指导网络爬虫沿着最有可能找到目标页面的路径爬行,进而较好地解决“隧道现象”的问题。(3)使用一种基于词频差异的特征选择方法和改进的TF-IDF公式对基于Context Graph的主题爬行算法进行了改进,加入词的类别权重作为对TF-IDF公式的调整,以提高特征选择和评价的质量。(4)实现了一个主题爬虫原型,通过实验对各算法进行了分析和比较,验证了本文改进的算法能够得到更加准确的文档集特征及权重,进而提高主题爬虫的性能。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 选题背景
  • 1.2 关于搜索引擎与爬虫
  • 1.3 论文主要内容及组织结构
  • 第2章 网络爬虫研究
  • 2.1 通用爬虫研究
  • 2.1.1 通用爬虫的工作流程
  • 2.1.2 爬虫程序的实现方式
  • 2.2 文本信息模型
  • 2.3 主题爬虫原理
  • 2.4 主题爬行策略
  • 2.4.1 基于内容分析的爬行算法
  • 2.4.2 基于链接分析的爬行算法
  • 第3章 基于Context Graph的主题爬行算法及其改进
  • 3.1 基于Context Graph的主题爬行
  • 3.1.1 构建Context Graph
  • 3.1.2 训练阶段
  • 3.1.3 爬行阶段
  • 3.2 对基于Context Graph爬行算法的改进
  • 3.2.1 特征选择理论
  • 3.2.2 算法改进思想
  • 第4章 实验与结果分析
  • 4.1 反向搜索模块
  • 4.2 线程池工作模块
  • 4.3 URL分析模块
  • 4.4 Naive Bayes分类器的设计
  • 4.5 实验结果与分析
  • 第5章 总结与展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的论文和参与的项目
  • 相关论文文献

    • [1].关于网络爬虫监管的思考[J]. 电子世界 2019(23)
    • [2].刍议大数据时代网络爬虫技术在商业银行中的应用[J]. 智能城市 2019(23)
    • [3].试论网络爬虫技术在舆情监测中的应用[J]. 科学技术创新 2020(05)
    • [4].主题网络爬虫研究综述[J]. 软件导刊 2020(02)
    • [5].分布式主题网络爬虫的设计与研究[J]. 科学技术创新 2020(15)
    • [6].善用网络爬虫[J]. 网络安全和信息化 2020(05)
    • [7].网络爬虫技术在基层平安建设中应用探索[J]. 数字技术与应用 2020(06)
    • [8].网络爬虫技术在交通信息获取中的应用综述[J]. 武汉理工大学学报(交通科学与工程版) 2020(03)
    • [9].网络爬虫技术在涉林案件监测方面的应用[J]. 福建电脑 2020(08)
    • [10].网络爬虫技术的研究与实现[J]. 中国新通信 2019(06)
    • [11].主题网络爬虫关键技术的应用探讨[J]. 电脑编程技巧与维护 2018(11)
    • [12].“网络爬虫”在税务稽查中的应用研究[J]. 当代经济 2019(05)
    • [13].网络爬虫在舆情监测中的实践探索[J]. 电脑知识与技术 2019(19)
    • [14].网络爬虫关键技术的应用探讨[J]. 计算机产品与流通 2019(09)
    • [15].基于网络爬虫技术的时令旅游信息获取[J]. 物联网技术 2018(05)
    • [16].基于匿名网络的网络爬虫设计与实现分析[J]. 计算机产品与流通 2017(12)
    • [17].主题网络爬虫抓取策略的研究[J]. 科技广场 2017(04)
    • [18].网络爬虫技术在电力产业中的应用[J]. 电子技术与软件工程 2017(18)
    • [19].基于网络爬虫的搜索引擎的设计与实现[J]. 电脑知识与技术 2020(30)
    • [20].基于网络爬虫的民用运力数据获取[J]. 军事交通学院学报 2020(01)
    • [21].国内网络爬虫行业发展情况及监管思考[J]. 江西通信科技 2019(01)
    • [22].面向网络爬虫的高可用动态池系统设计与实现[J]. 福建电脑 2019(06)
    • [23].基于网络爬虫的军事舆情态势挖掘研究[J]. 电子制作 2018(Z2)
    • [24].网络爬虫的专利技术综述[J]. 科技视界 2018(22)
    • [25].主题网络爬虫技术在高速公路信息采集中的应用[J]. 烟台大学学报(自然科学与工程版) 2017(03)
    • [26].基于排序学习的网络爬虫实现设计[J]. 青年与社会 2019(12)
    • [27].一种新的主题网络爬虫爬行策略[J]. 计算机应用与软件 2011(11)
    • [28].通过网络爬虫获取舆情数据分析人的行为习惯[J]. 测绘通报 2018(S1)
    • [29].网络爬虫针对“反爬”网站的爬取策略分析[J]. 信息与电脑(理论版) 2019(03)
    • [30].网络爬虫反爬策略研究[J]. 科技创新与应用 2019(15)

    标签:;  ;  ;  

    搜索引擎中网络爬虫的研究
    下载Doc文档

    猜你喜欢