基于主题的Hidden Web信息获取研究
论文摘要
随着World Wide Web(WWW)的爆炸式增长,Hidden Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。这些信息需要通过查询接口在线访问其后端的Web数据库才能得到。尽管丰富的信息蕴藏在Hidden Web中,由于Hidden Web数据的隐藏特性,传统的搜索引擎对其不做索引,导致大量的有用信息被浪费。而有效地把这些信息加以利用是一件十分具有挑战性的工作。对于Hidden Web的获取目前成为信息检索研究的一个新兴领域。本文首先介绍了Hidden Web的成因和结构特点,然后对比了Hidden Web爬虫和传统爬虫的异同之处,分析了在设计Hidden Web爬虫时需要解决的关键性技术。在总结现有的网络爬虫的基础上,通过对其架构进行改进和优化,提出了一种基于主题获取Hidden Web信息的方法,文中给出了系统的框架结构,分析了Hidden Web爬虫抓取页面时的几个步骤,并讨论了实现的关键技术。通过引入的主题技术,能够节省网络资源,减少在不相关站点的停留,提高了抓取的准确率;文中设计的启发式查询词选择算法,能够每次自动从候选查询词中选择“最佳”查询词进行提交。与现有的网络爬虫采用的算法相比,该算法有效地减少了查询词提交的次数,从而提高了抓取的效率。实验表明,该方法和早期的解决方案相比,取得了较好的抓取效果。
论文目录
摘要Abstract1 前言1.1 研究背景1.2 国内外研究现状1.3 研究内容和组织结构2 相关知识及技术2.1 HIDDEN WEB介绍2.1.1 Hidden Web数据库模型2.1.2 Hidden Web不可见原因2.1.3 Hidden Web分类2.2 主题技术2.3 爬虫介绍2.3.1 传统爬虫和Hidden Web爬虫比较2.3.2 Hidden Web爬虫工作原理2.3.3 Hidden Web爬虫的关键技术3 系统设计3.1 导航模式3.2 爬行问题形式化定义3.3 抓取步骤3.3.1 相关性判断3.3.2 寻找表单3.3.3 自动填写表单3.3.4 响应分析3.4 URL处理流程4 启发式查询词选择算法4.1 查询关键字选择策略4.2 ZIPF定律4.3 算法分析4.3.1 结构化数据库分析4.3.2 算法描述4.4 最佳查询词选择4.4.1 文本数据库类型最佳查询词4.4.2 结构化数据库类型最佳查询词4.5 数据岛问题的解决4.6 查询表维护过程4.7 爬行限制返回结果页面数的站点4.8 性能评价标准5 实验分析5.1 实验过程5.2 实验结论6 总结及展望6.1 课题的主要工作6.2 进一步的工作致谢参考文献攻读硕士学位期间公开发表论文
相关论文文献
- [1].我国高速轨道交通领域的各方面取得重大突破,并得到广泛应用[J]. 科技促进发展 2014(04)
- [2].我国交通基础设施建设与养护关键技术取得重大进展和突破[J]. 科技促进发展 2014(04)
本文来源: https://www.lw50.cn/article/c4d9899713745fc2adb8baf6.html