论文摘要
随着互联网的快速发展,人们越来越多地通过搜索引擎来实现信息的获取。从海量数据中获取信息越来越困难,搜索引擎最核心的技术是网络爬行器方法,对网络爬行器的研究、改进成为关键。为解决搜索引擎遇到的诸多难题,已经产生了目录搜索引擎、通用搜索引擎、元搜索引擎、主题搜索引擎、人工智能搜索引擎等研究领域。本论文介绍了搜索引擎的组成及网络爬行器的主要原理,结合网页评价方法分析了基于主题策略的网络爬行器技术和网页隧道穿越技术,对比阐述分析了现有的网络爬行器的关键算法,如Pagerank算法、HITS算法、Fish Search算法、Shark Search算法、Best First算法、A*算法等。在现有的算法基础上,提出新的一种评价网页重要性的方法,将网页链接分析和内容相关度结合起来,构造网页核心度公式和网页辐射空间,并尝试将网页辐射空间与隧道穿越技术结合起来,并进行了数学推理证明,给出了几个关于搜索的定理证明,提出了一种基于主题策略的启发式搜索蛙跳算法。最后,利用一种通用的主题爬行器搜索策略性能评价系统进行了实验论证,对比分析了现有算法与启发式搜索蛙跳算法性能。本论文创新之处首先在于提出了新的网页辐射空间的概念,将传统的网页重要度计算方法PAGERANK与HITS进行结合,文本内容的相似度计算方法仍然作为分析评估网页内容的重要手段。网页核心度具有更加广泛的意义,相比单一的网页链接数计算或网页内容相似度计算,虽然计算量增加了,但是搜索范围却大大缩小了,搜索精度也相应提高,满足了主题搜索的性能要求。第二个创新工作是对网页隧道穿越算法的研究。因为局部信息可能被淹没在全局信息之中,传统主题爬行算法没有区分全局相关性与局部相关性,将一个训练好的分类器作用到比其更宽泛的主题网页上,通常会得到不相关的判断结果。本论文将网页隧道穿越分为两种类型:主题相关隧道穿越(connected tunneling)和主题非相关隧道穿越(non-connected tunneling),并提出了相应的算法。第三个创新之处是将启发式搜索A*算法应用到主题爬行中,结合网页辐射空间方法和网页隧道穿越技术进行了启发式函数的改进,提出了新的启发式搜索蛙跳算法。数学推理及实验结果表明,本论文提出的启发式搜索蛙跳算法在减少查找响应时间的同时,提高了查全率和查准率,使主题搜索引擎的性能有较大改善。
论文目录
摘要ABSTRACT1 绪论1.1 课题背景及研究意义1.1.1 课题背景1.1.2 研究的意义1.2 国内外研究现状1.2.1 搜索引擎发展介绍1.2.2 网络爬行器研究现状1.3 本文研究的目的和研究内容1.3.1 本文研究的目的1.3.2 本文研究的主要内容2 基于主题策略的网络爬行器技术分析2.1 网络爬行器技术的演化及原理2.1.1 技术演化2.1.2 网络爬行器原理2.2 主题策略介绍2.2.1 主题策略概念2.2.2 网页评价方法2.3 基于主题策略的网络爬行器2.3.1 爬行器模型构建2.3.2 主题策略的引入2.4 本章小结3 基于主题策略的网页隧道穿越算法的研究3.1 网页隧道穿越概念3.2 传统隧道穿越技术3.3 主题相关隧道穿越算法3.4 主题非相关隧道穿越算法3.5 实验结论3.6 本章小结4 基于主题策略的网络爬行器算法的研究4.1 算法介绍和分类4.2 传统的网络爬行算法4.2.1 深度优先搜索算法(Depth First Algorithm)4.2.2 广度优先搜索算法(Breadth First Algorithm)4.2.3 Pagerank 算法4.2.4 HITS 算法4.2.5 Fish Search 算法4.2.6 Shark Search 算法4.2.7 InfoSpiders(IS)算法4.2.8 Best First 算法4.3 启发式搜索算法4.3.1 启发式搜索基本概念4.3.2 启发式搜索过程4.3.3 A*算法4.4 常用算法分析4.4.1 传统算法的分析4.4.2 启发式A *算法分析4.4.3 现有爬行器算法的改进分析4.5 基于主题策略的启发式搜索蛙跳算法的研究4.5.1 算法思想4.5.2 算法原理4.5.3 Leapfrog 算法:启发式搜索A*算法与主题策略的结合4.5.4 理论分析及实验验证4.6 本章小结5 主题网络爬行器原型系统的研究与实现5.1 体系结构及设计目标5.2 主要模块5.3 开发平台及关键代码5.4 本章小结6 总结与展望6.1 总结6.2 后续研究工作的展望致谢参考文献附录A. 作者在攻读学位期间发表的论文目录B. 作者在攻读学位期间取得的科研成果目录
相关论文文献
标签:主题策略论文; 搜索引擎论文; 网络爬行器算法论文; 启发式搜索论文; 蛙跳算法论文;