Print

基于主题的Hidden Web信息获取研究

论文摘要

随着World Wide Web(WWW)的爆炸式增长,Hidden Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。这些信息需要通过查询接口在线访问其后端的Web数据库才能得到。尽管丰富的信息蕴藏在Hidden Web中,由于Hidden Web数据的隐藏特性,传统的搜索引擎对其不做索引,导致大量的有用信息被浪费。而有效地把这些信息加以利用是一件十分具有挑战性的工作。对于Hidden Web的获取目前成为信息检索研究的一个新兴领域。本文首先介绍了Hidden Web的成因和结构特点,然后对比了Hidden Web爬虫和传统爬虫的异同之处,分析了在设计Hidden Web爬虫时需要解决的关键性技术。在总结现有的网络爬虫的基础上,通过对其架构进行改进和优化,提出了一种基于主题获取Hidden Web信息的方法,文中给出了系统的框架结构,分析了Hidden Web爬虫抓取页面时的几个步骤,并讨论了实现的关键技术。通过引入的主题技术,能够节省网络资源,减少在不相关站点的停留,提高了抓取的准确率;文中设计的启发式查询词选择算法,能够每次自动从候选查询词中选择“最佳”查询词进行提交。与现有的网络爬虫采用的算法相比,该算法有效地减少了查询词提交的次数,从而提高了抓取的效率。实验表明,该方法和早期的解决方案相比,取得了较好的抓取效果。

论文目录

  • 摘要
  • Abstract
  • 1 前言
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.3 研究内容和组织结构
  • 2 相关知识及技术
  • 2.1 HIDDEN WEB介绍
  • 2.1.1 Hidden Web数据库模型
  • 2.1.2 Hidden Web不可见原因
  • 2.1.3 Hidden Web分类
  • 2.2 主题技术
  • 2.3 爬虫介绍
  • 2.3.1 传统爬虫和Hidden Web爬虫比较
  • 2.3.2 Hidden Web爬虫工作原理
  • 2.3.3 Hidden Web爬虫的关键技术
  • 3 系统设计
  • 3.1 导航模式
  • 3.2 爬行问题形式化定义
  • 3.3 抓取步骤
  • 3.3.1 相关性判断
  • 3.3.2 寻找表单
  • 3.3.3 自动填写表单
  • 3.3.4 响应分析
  • 3.4 URL处理流程
  • 4 启发式查询词选择算法
  • 4.1 查询关键字选择策略
  • 4.2 ZIPF定律
  • 4.3 算法分析
  • 4.3.1 结构化数据库分析
  • 4.3.2 算法描述
  • 4.4 最佳查询词选择
  • 4.4.1 文本数据库类型最佳查询词
  • 4.4.2 结构化数据库类型最佳查询词
  • 4.5 数据岛问题的解决
  • 4.6 查询表维护过程
  • 4.7 爬行限制返回结果页面数的站点
  • 4.8 性能评价标准
  • 5 实验分析
  • 5.1 实验过程
  • 5.2 实验结论
  • 6 总结及展望
  • 6.1 课题的主要工作
  • 6.2 进一步的工作
  • 致谢
  • 参考文献
  • 攻读硕士学位期间公开发表论文
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/c4d9899713745fc2adb8baf6.html