面向可下载资源的WEB搜索引擎的设计与实现

面向可下载资源的WEB搜索引擎的设计与实现

论文摘要

利用搜索引擎,人们可以在互联网中迅速定位自己所需的信息。以Google为代表的通用搜索引擎在信息检索方面很好的满足了用户的需求,但在搜索可下载资源方面,通用搜索引擎还存在着一些不足之处:大多数情况下都没有返回直接指向可下载资源的目标链接;没有对可下载资源的可访问性进行检测从而导致出现“死链”。本文通过研究可下载资源的特性,提出了一种新的面向可下载资源的搜索引擎,以此来弥补通用搜索引擎在搜索可下载资源方面的不足。 本文首先分析了可下载资源的特性,其与一般Web页面的区别是:Web页面只是通往可下载资源的路标,且无法确保能找到可下载资源;网站的知名度与其提供的可下载资源的质量之间并无必然联系。因此,在搜索引擎的设计上充分考虑可下载资源的特性是提高对可下载资源搜索质量的关键。 针对可下载资源的以上特性,本文设计了一种面向可下载资源的搜索引擎——SureDown。SureDown采取了以资源为中心的信息收集策略,Crawler访问资源时会检测其可访问性,并将与其关联的网页保存到本地数据库中;同时其索引的建立也只针对与资源关联的网页,在建立索引前,通过对网页进行预处理来构建资源描述文件,使得建立索引的开销大幅降低;而排序程序则通过计算资源描述文件中各标签内容与查询关键字的相关度来对搜索结果进行排序,最后由用户接口将资源描述文件中指向可下载资源的目标链接作为结果集返回给用户。新的搜索引擎在设计上充分考虑了可下载资源的特性。 基于提出的SureDown的设计思想,本文实现了SureDown的一个原型系统,该系统由Crawler模块,Indexer模块,Sorter模块,用户接口四部分组成。以此原型系统为平台,本文进行了一系列的实验,分别针对SureDown设计目的的达成度,Crawler的信息收集效率,系统的伸缩性进行了测试。实验表明本文提出的SureDown搜索引擎在可下载资源搜索方面较好的弥补了通用搜索引擎的不足之处。

论文目录

  • 摘要
  • ABSTRACT
  • 插图索引
  • 附表索引
  • 第1章 绪论
  • 1.1 课题来源
  • 1.2 研究目的与意义
  • 1.3 搜索引擎技术概述
  • 1.3.1 搜索引擎的发展历史
  • 1.3.2 搜索引擎分类
  • 1.3.3 搜索引擎的工作原理
  • 1.4 本文所做工作
  • 1.5 文章结构
  • 第2章 关键技术介绍
  • 2.1 Crawler技术介绍
  • 2.1.1 Crawler信息收集策略
  • 2.1.2 Crawler的运行模式
  • 2.1.3 Crawler的信息更新策略
  • 2.2 索引技术的应用
  • 2.2.1 索引分类
  • 2.2.3 倒排索引技术
  • 2.3 流行排序算法介绍
  • 2.4 小结
  • 第3章 SureDown搜索引擎设计
  • 3.1 可下载资源特性分析
  • 3.1.1 与Web页面的关系
  • 3.1.2 分布特性
  • 3.2 SureDown的Crawler设计
  • 3.2.1 Crawler信息收集策略设计
  • 3.2.2 Crawler运行模式设计
  • 3.2.3 Crawler信息更新策略设计
  • 3.2.4 Crawler对被访问网站的影响
  • 3.3 SureDown的索引机制设计
  • 3.3.1 确定可下载资源的身份
  • 3.3.2 网页信息的预处理
  • 3.3.3 索引结构及生成方式
  • 3.4 SureDown的排序算法设计
  • 3.5 小结
  • 第4章 SureDown搜索引擎原型的实现
  • 4.1 系统架构
  • 4.2 系统环境
  • 4.3 Crawler模块的实现
  • 4.3.1 核心类设计
  • 4.3.2 主要数据表设计
  • 4.4 Indexer模块的实现
  • 4.4.1 核心类设计
  • 4.4.2 主要数据表设计
  • 4.5 Sorter模块的实现
  • 4.6 用户接口的实现
  • 4.7 小结
  • 第5章 实验及结果分析
  • 5.1 实验准备及环境配置
  • 5.2 Crawler性能测试
  • 5.3 构建资源描述文件
  • 5.4 搜索测试
  • 5.5 小结
  • 结论
  • 参考文献
  • 致谢
  • 附录A 攻读学位期间所发表的学术论文目录
  • 附录B 资源描述文件格式定义
  • 相关论文文献

    • [1].65万次拒绝[J]. 意林 2017(07)
    • [2].绕开陷阱,下载资源自动找[J]. 电脑爱好者 2010(21)
    • [3].小心eMule里的李鬼[J]. 电脑迷 2008(12)
    • [4].以最低碳的模式下载资源[J]. 电脑爱好者 2011(12)
    • [5].利用软件寻找下载资源[J]. 网友世界 2011(16)
    • [6].变个身份 畅行网络[J]. 电脑爱好者 2011(01)
    • [7].无关下载资源莫多情[J]. 电脑爱好者(普及版) 2009(07)
    • [8].按需下载网站资源的方法研究及实现[J]. 计算机应用与软件 2009(11)
    • [9].将下载资源与QQ账号捆绑起来[J]. 电脑迷 2009(11)
    • [10].阻止Windows 10占用内部P2P带宽[J]. 电脑迷 2015(12)
    • [11].用PyQuery抓取图书信息建立自己的家庭图书馆[J]. 电脑迷 2016(07)
    • [12].别说再见[J]. 信息化建设 2012(10)
    • [13].寻找P2P下载资源的新途径[J]. 电脑迷 2011(11)
    • [14].自动过滤小文件[J]. 电脑迷 2009(04)
    • [15].奥翔网特色频道[J]. 世界电信 2008(04)
    • [16].精通文件校验的“门道”[J]. 电脑知识与技术(经验技巧) 2017(09)
    • [17].我的世界 我做主——《Minecraft 1.8.1》初级攻略[J]. 科学24小时 2015(03)
    • [18].基于vfp的文件浏览器[J]. 中国教育技术装备 2008(11)
    • [19].以宏定义的风格管理下载文件[J]. 电脑迷 2012(06)
    • [20].云南农村中小学共享教育资源[J]. 课程教材教学研究(小教研究) 2008(Z3)
    • [21].ListFreeSamples.com:这里一切都免费[J]. 互联网天地 2010(04)
    • [22].跟着豆瓣下资源[J]. 电脑迷 2014(01)
    • [23].P2PSearcher帮你轻松找到网络资源[J]. 电脑知识与技术(经验技巧) 2011(09)
    • [24].德赛西威首开“音乐e栈”——为车主提供海量正版免费音乐下载服务[J]. 音响改装技术 2011(03)
    • [25].e络盟推出面向工程师的完整开发工具资源平台[J]. 单片机与嵌入式系统应用 2014(11)
    • [26].游戏电影音乐轻松提取[J]. 电脑迷 2010(21)
    • [27].通过微博与好友分享优质资源[J]. 电脑迷 2011(09)
    • [28].多人协作下载模式的设计[J]. 中外企业家 2013(15)
    • [29].电脑菜鸟的福音 联想远程软件服务教你学电脑[J]. 电脑爱好者 2012(14)
    • [30].将下载资源直接备份至随身盘[J]. 网友世界 2011(Z1)

    标签:;  ;  ;  ;  ;  

    面向可下载资源的WEB搜索引擎的设计与实现
    下载Doc文档

    猜你喜欢