论文摘要
随着互联网的飞速发展,信息化正在深刻的改变着世界的面貌和人们的生活方式。与此同时,互联网信息爆炸性的增长,使得人们如何快速准确地获取信息的问题日益突出。20世纪90年代,搜索引擎的出现和快速发展,很好的解决了海量信息搜集和检索的问题。21世纪初,随着WEB2.0概念和技术的出现和兴起,互联网进入了全民“织网”的新时代。作为WEB2.0技术基础的各种富客户端技术也随之得到了大范围的使用和推广。通过采用异步通讯技术,客户端与服务器端的交互将在后台以异步通讯的方式进行,客户将从枯燥的页面刷新以及漫长的服务器响应等待中解放出来,客户的请求将得到更快的响应,服务器端的压力将得到有效的缓解。本文系统的回顾了搜索引擎页面搜索的研究现状,分析了目前全文搜索引擎页面搜集和存储的工作原理,介绍了异步通讯技术的工作原理和优势,总结了在WEB2.0环境下,由于采用异步通讯机制而给搜索引擎所带来的问题,提出了一种面向异步通讯机制的网页搜集技术的实现方法。面向异步通讯机制的页面搜索技术研究旨在克服由于采用异步通讯技术而给搜索引擎所带来的新问题。由于目前全文搜索引擎的搜集器大多采用基于超链分析的算法,搜集器程序只分析页面的HTML代码部分,而忽略页面中脚本区域的代码。而异步通讯技术正是借助大量的脚本代码来实现的,大量的链接被隐藏在了页面的脚本代码中。因此需要对现有的搜索引擎的搜集器做适当的改进,使得搜集器程序可以分析页面脚本区域的代码,将其中的超链接取出。为此,本文提出了一种借助于脚本运行环境,利用Windows消息机制,通过系统模拟点击页面脚本函数的方法来提取超链接。同时,针对异步通讯机制所带来的服务器返回不完整页面的问题,采取了导入链接所属的源页面,通过局部刷新机制,存储刷新后页面的方法来解决信息不能直接存储的问题。最后展望了这一课题的后续工作。