论文摘要
随着World Wide Web(WWW)的爆炸式增长,Hidden Web中蕴含了海量的可供访问的信息,并且还在迅速地增长。这些信息需要通过查询接口在线访问其后端的Web数据库才能得到。尽管丰富的信息蕴藏在Hidden Web中,由于Hidden Web数据的隐藏特性,传统的搜索引擎对其不做索引,导致大量的有用信息被浪费。而有效地把这些信息加以利用是一件十分具有挑战性的工作。对于Hidden Web的获取目前成为信息检索研究的一个新兴领域。本文首先介绍了Hidden Web的成因和结构特点,然后对比了Hidden Web爬虫和传统爬虫的异同之处,分析了在设计Hidden Web爬虫时需要解决的关键性技术。在总结现有的网络爬虫的基础上,通过对其架构进行改进和优化,提出了一种基于主题获取Hidden Web信息的方法,文中给出了系统的框架结构,分析了Hidden Web爬虫抓取页面时的几个步骤,并讨论了实现的关键技术。通过引入的主题技术,能够节省网络资源,减少在不相关站点的停留,提高了抓取的准确率;文中设计的启发式查询词选择算法,能够每次自动从候选查询词中选择“最佳”查询词进行提交。与现有的网络爬虫采用的算法相比,该算法有效地减少了查询词提交的次数,从而提高了抓取的效率。实验表明,该方法和早期的解决方案相比,取得了较好的抓取效果。
论文目录
相关论文文献
- [1].我国高速轨道交通领域的各方面取得重大突破,并得到广泛应用[J]. 科技促进发展 2014(04)
- [2].我国交通基础设施建设与养护关键技术取得重大进展和突破[J]. 科技促进发展 2014(04)