基于主题的Hidden Web信息获取研究

论文摘要

随着World Wide Web(WWW)的爆炸式增长,Hidden Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。这些信息需要通过查询接口在线访问其后端的Web数据库才能得到。尽管丰富的信息蕴藏在Hidden Web中,由于Hidden Web数据的隐藏特性,传统的搜索引擎对其不做索引,导致大量的有用信息被浪费。而有效地把这些信息加以利用是一件十分具有挑战性的工作。对于Hidden Web的获取目前成为信息检索研究的一个新兴领域。本文首先介绍了Hidden Web的成因和结构特点,然后对比了Hidden Web爬虫和传统爬虫的异同之处,分析了在设计Hidden Web爬虫时需要解决的关键性技术。在总结现有的网络爬虫的基础上,通过对其架构进行改进和优化,提出了一种基于主题获取Hidden Web信息的方法,文中给出了系统的框架结构,分析了Hidden Web爬虫抓取页面时的几个步骤,并讨论了实现的关键技术。通过引入的主题技术,能够节省网络资源,减少在不相关站点的停留,提高了抓取的准确率;文中设计的启发式查询词选择算法,能够每次自动从候选查询词中选择“最佳”查询词进行提交。与现有的网络爬虫采用的算法相比,该算法有效地减少了查询词提交的次数,从而提高了抓取的效率。实验表明,该方法和早期的解决方案相比,取得了较好的抓取效果。

论文目录

摘要

Abstract

1 前言

1.1 研究背景

1.2 国内外研究现状

1.3 研究内容和组织结构

2 相关知识及技术

2.1 HIDDEN WEB介绍

2.1.1 Hidden Web数据库模型

2.1.2 Hidden Web不可见原因

2.1.3 Hidden Web分类

2.2 主题技术

2.3 爬虫介绍

2.3.1 传统爬虫和Hidden Web爬虫比较

2.3.2 Hidden Web爬虫工作原理

2.3.3 Hidden Web爬虫的关键技术

3 系统设计

3.1 导航模式

3.2 爬行问题形式化定义

3.3 抓取步骤

3.3.1 相关性判断

3.3.2 寻找表单

3.3.3 自动填写表单

3.3.4 响应分析

3.4 URL处理流程

4 启发式查询词选择算法

4.1 查询关键字选择策略

4.2 ZIPF定律

4.3 算法分析

4.3.1 结构化数据库分析

4.3.2 算法描述

4.4 最佳查询词选择

4.4.1 文本数据库类型最佳查询词

4.4.2 结构化数据库类型最佳查询词

4.5 数据岛问题的解决

4.6 查询表维护过程

4.7 爬行限制返回结果页面数的站点

4.8 性能评价标准

5 实验分析

5.1 实验过程

5.2 实验结论

6 总结及展望

6.1 课题的主要工作

6.2 进一步的工作

致谢

参考文献

攻读硕士学位期间公开发表论文

基于主题的Hidden Web信息获取研究

论文摘要

论文目录

相关论文文献