面向异步通讯机制的网页搜索技术研究

论文摘要

随着互联网的飞速发展，信息化正在深刻的改变着世界的面貌和人们的生活方式。与此同时，互联网信息爆炸性的增长，使得人们如何快速准确地获取信息的问题日益突出。20世纪90年代，搜索引擎的出现和快速发展，很好的解决了海量信息搜集和检索的问题。21世纪初，随着WEB2.0概念和技术的出现和兴起，互联网进入了全民“织网”的新时代。作为WEB2.0技术基础的各种富客户端技术也随之得到了大范围的使用和推广。通过采用异步通讯技术，客户端与服务器端的交互将在后台以异步通讯的方式进行，客户将从枯燥的页面刷新以及漫长的服务器响应等待中解放出来，客户的请求将得到更快的响应，服务器端的压力将得到有效的缓解。本文系统的回顾了搜索引擎页面搜索的研究现状，分析了目前全文搜索引擎页面搜集和存储的工作原理，介绍了异步通讯技术的工作原理和优势，总结了在WEB2.0环境下，由于采用异步通讯机制而给搜索引擎所带来的问题，提出了一种面向异步通讯机制的网页搜集技术的实现方法。面向异步通讯机制的页面搜索技术研究旨在克服由于采用异步通讯技术而给搜索引擎所带来的新问题。由于目前全文搜索引擎的搜集器大多采用基于超链分析的算法，搜集器程序只分析页面的HTML代码部分，而忽略页面中脚本区域的代码。而异步通讯技术正是借助大量的脚本代码来实现的，大量的链接被隐藏在了页面的脚本代码中。因此需要对现有的搜索引擎的搜集器做适当的改进，使得搜集器程序可以分析页面脚本区域的代码，将其中的超链接取出。为此，本文提出了一种借助于脚本运行环境，利用Windows消息机制，通过系统模拟点击页面脚本函数的方法来提取超链接。同时，针对异步通讯机制所带来的服务器返回不完整页面的问题，采取了导入链接所属的源页面，通过局部刷新机制，存储刷新后页面的方法来解决信息不能直接存储的问题。最后展望了这一课题的后续工作。

论文目录

摘要

ABSTRACT

第一章引言

第一节本文研究背景及意义

第二节国内外研究现状

第三节研究内容

第四节创新点

第五节论文章节安排

第二章相关技术研究

第一节全文搜索引擎工作原理

第二节页面搜索算法研究

第三节异步通讯技术研究

第四节异步通讯技术对传统的负面搜索技术带来的挑战

第三章面向异步通讯的搜索引擎搜集器设计

第一节搜集器的系统结构

第二节搜集器链接提取及处理子系统设计

第三节搜集器页面存储子系统设计

第四节实现要点

第四章基于SVM的网页分类器的设计与实现

第一节支持向量机（SVM）的一般原理

第二节基于SVM的分类器的模型

第三节基于SVM的分类器的评价

第五章面向异步通讯机制的搜索器的系统实现

第一节搜集器链接提取与处理子系统的实现

第二节搜索器存储子系统实现

第三节面向异步通讯机制的搜集器效果评价

第六章总结和展望

第一节本文工作总结

第二节后续工作展望

参考文献

攻读硕士学位期间发表的论文及参与的项目

致谢

面向异步通讯机制的网页搜索技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢