基于主题策略的网络爬行器算法研究

基于主题策略的网络爬行器算法研究

论文摘要

随着互联网的快速发展,人们越来越多地通过搜索引擎来实现信息的获取。从海量数据中获取信息越来越困难,搜索引擎最核心的技术是网络爬行器方法,对网络爬行器的研究、改进成为关键。为解决搜索引擎遇到的诸多难题,已经产生了目录搜索引擎、通用搜索引擎、元搜索引擎、主题搜索引擎、人工智能搜索引擎等研究领域。本论文介绍了搜索引擎的组成及网络爬行器的主要原理,结合网页评价方法分析了基于主题策略的网络爬行器技术和网页隧道穿越技术,对比阐述分析了现有的网络爬行器的关键算法,如Pagerank算法、HITS算法、Fish Search算法、Shark Search算法、Best First算法、A*算法等。在现有的算法基础上,提出新的一种评价网页重要性的方法,将网页链接分析和内容相关度结合起来,构造网页核心度公式和网页辐射空间,并尝试将网页辐射空间与隧道穿越技术结合起来,并进行了数学推理证明,给出了几个关于搜索的定理证明,提出了一种基于主题策略的启发式搜索蛙跳算法。最后,利用一种通用的主题爬行器搜索策略性能评价系统进行了实验论证,对比分析了现有算法与启发式搜索蛙跳算法性能。本论文创新之处首先在于提出了新的网页辐射空间的概念,将传统的网页重要度计算方法PAGERANK与HITS进行结合,文本内容的相似度计算方法仍然作为分析评估网页内容的重要手段。网页核心度具有更加广泛的意义,相比单一的网页链接数计算或网页内容相似度计算,虽然计算量增加了,但是搜索范围却大大缩小了,搜索精度也相应提高,满足了主题搜索的性能要求。第二个创新工作是对网页隧道穿越算法的研究。因为局部信息可能被淹没在全局信息之中,传统主题爬行算法没有区分全局相关性与局部相关性,将一个训练好的分类器作用到比其更宽泛的主题网页上,通常会得到不相关的判断结果。本论文将网页隧道穿越分为两种类型:主题相关隧道穿越(connected tunneling)和主题非相关隧道穿越(non-connected tunneling),并提出了相应的算法。第三个创新之处是将启发式搜索A*算法应用到主题爬行中,结合网页辐射空间方法和网页隧道穿越技术进行了启发式函数的改进,提出了新的启发式搜索蛙跳算法。数学推理及实验结果表明,本论文提出的启发式搜索蛙跳算法在减少查找响应时间的同时,提高了查全率和查准率,使主题搜索引擎的性能有较大改善。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 课题背景及研究意义
  • 1.1.1 课题背景
  • 1.1.2 研究的意义
  • 1.2 国内外研究现状
  • 1.2.1 搜索引擎发展介绍
  • 1.2.2 网络爬行器研究现状
  • 1.3 本文研究的目的和研究内容
  • 1.3.1 本文研究的目的
  • 1.3.2 本文研究的主要内容
  • 2 基于主题策略的网络爬行器技术分析
  • 2.1 网络爬行器技术的演化及原理
  • 2.1.1 技术演化
  • 2.1.2 网络爬行器原理
  • 2.2 主题策略介绍
  • 2.2.1 主题策略概念
  • 2.2.2 网页评价方法
  • 2.3 基于主题策略的网络爬行器
  • 2.3.1 爬行器模型构建
  • 2.3.2 主题策略的引入
  • 2.4 本章小结
  • 3 基于主题策略的网页隧道穿越算法的研究
  • 3.1 网页隧道穿越概念
  • 3.2 传统隧道穿越技术
  • 3.3 主题相关隧道穿越算法
  • 3.4 主题非相关隧道穿越算法
  • 3.5 实验结论
  • 3.6 本章小结
  • 4 基于主题策略的网络爬行器算法的研究
  • 4.1 算法介绍和分类
  • 4.2 传统的网络爬行算法
  • 4.2.1 深度优先搜索算法(Depth First Algorithm)
  • 4.2.2 广度优先搜索算法(Breadth First Algorithm)
  • 4.2.3 Pagerank 算法
  • 4.2.4 HITS 算法
  • 4.2.5 Fish Search 算法
  • 4.2.6 Shark Search 算法
  • 4.2.7 InfoSpiders(IS)算法
  • 4.2.8 Best First 算法
  • 4.3 启发式搜索算法
  • 4.3.1 启发式搜索基本概念
  • 4.3.2 启发式搜索过程
  • 4.3.3 A*算法
  • 4.4 常用算法分析
  • 4.4.1 传统算法的分析
  • 4.4.2 启发式A *算法分析
  • 4.4.3 现有爬行器算法的改进分析
  • 4.5 基于主题策略的启发式搜索蛙跳算法的研究
  • 4.5.1 算法思想
  • 4.5.2 算法原理
  • 4.5.3 Leapfrog 算法:启发式搜索A*算法与主题策略的结合
  • 4.5.4 理论分析及实验验证
  • 4.6 本章小结
  • 5 主题网络爬行器原型系统的研究与实现
  • 5.1 体系结构及设计目标
  • 5.2 主要模块
  • 5.3 开发平台及关键代码
  • 5.4 本章小结
  • 6 总结与展望
  • 6.1 总结
  • 6.2 后续研究工作的展望
  • 致谢
  • 参考文献
  • 附录
  • A. 作者在攻读学位期间发表的论文目录
  • B. 作者在攻读学位期间取得的科研成果目录
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于主题策略的网络爬行器算法研究
    下载Doc文档

    猜你喜欢