基于Nutch的学术搜索引擎的研究与实现

基于Nutch的学术搜索引擎的研究与实现

论文摘要

近年来,随着计算机技术的飞速发展,互联网已经从各方面影响着人们的工作和生活。为了更好的使用互联网资源,搜索引擎应运而生。但是传统的通用搜索引擎存在着网络覆盖率低、查准率差、错误导航等诸多问题,因此又出现了针对某一特定领域提供检索服务的垂直搜索引擎。在学术领域,为了充分利用研究机构与研究人员等通过网络共享的大量学术资源,有不少针对学术领域的垂直搜索引擎也相继出现。但是,由于更新时间滞后、浏览与下载权限控制和时效性较差等原因,目前还没有出现类似通用的Google搜索引擎那样使用率非常高的面向学术领域的垂直搜索引擎。针对以上实际情况,本文研究并实现了一个新的面向学术领域的垂直搜索引擎,基于Nutch实现的该学术搜索引擎能够为用户提供时效性较强且与主题较相关的检索结果,并通过用户定制功能保证了系统的更新频率。本文的主要工作包括以下几个方面:(1)为了保证信息搜集范围的广泛性,本文的学术搜索引擎在爬取模块采用了全网爬取的方式,这打破了一些面向学术领域的搜索引擎仅针对部分学术网站进行信息搜集的局限性。在全网爬取的前提下,本文为学术搜索引擎实现了主题爬取功能。主题爬取模块引入了网页主题相关性过滤机制,采用了一种基于语义引力的相似度计算方法,该算法通过计算网页与主题相关词的相似程度,来判定网页与主题的相关程度。这种在爬取阶段就进行主题判断的方式,是目前实现垂直搜索引擎的最佳方式。全网环境下的主题爬取模块的实现,既保证了所搜集网页的主题相关性,又使得本文的学术搜索引擎具备了发现互联网中新的主题相关网站的能力。(2)在解析模块,本文实现了基于模板的通用网页解析器,该解析器克服了解析模板对网页和网站结构的依赖性,实现了模板创建过程的半自动化,因此它具有一定的通用性。此外,该模板解析器可以通过定制解析来定向收集用户感兴趣的网页信息(如网页更新时间),因此该模板解析器能够被定制以应用于不同的搜索引擎之中。(3)本文成功的完成了Nutch原有的Lucene索引结构的重新构建,为学术搜索引擎的索引文件添加了自定义的date域,并在检索模块实现了基于该时间域的排序方法,从而为学术搜索引擎添加了按网页时效性进行检索的功能。此外,检索模块还实现了综合考虑网页内容重要性和网页链接重要程度的排序方法,克服了一些面向学术领域的搜索引擎在排序方面的不足。(4)用户定制模块实现了管理和配置整个学术搜索引擎的功能,实现了系统运行参数、种子URL的可视化配置,并允许用户通过关键词定制和筛选种子URL。此外,该部分还提供了种子URL推荐功能,用户可以向学术搜索引擎推荐新的种子URL。在配置完成后,用户可以通过用户定制模块直接运行学术搜索引擎,这种易用性使得用户可以根据实际需要确定系统的更新频率,从而保证了检索信息的时效性。经过实际部署与应用的基于Nutch的学术搜索引擎取得了预期的效果,通过分析学术搜索引擎的检索结果,验证了引擎系统各个模块的主要功能。用户可以通过学术搜索引擎检索到与自己关注领域更相关且时效性更强的资讯信息。同时,基于Nutch的学术搜索引擎还具有良好的扩展性和通用性,可以方便的通过扩展进行功能的增删或改进,或通过进一步修改成为其他领域的垂直搜索引擎系统。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文研究内容及组织结构
  • 1.4 本文的组织结构
  • 第2章 相关理论及技术
  • 2.1 搜索引擎整体架构
  • 2.2 网络爬虫
  • 2.3 中文分词
  • 2.4 网页抽取技术
  • 2.5 排序算法
  • 2.5.1 网页链接URL
  • 2.5.2 PageRank算法
  • 2.5.3 OPIC算法
  • 2.6 Nutch
  • 2.6.1 Nutch中的Hadoop
  • 2.6.2 Lucene索引
  • 2.6.3 Nutch的工作流程
  • 2.6.4 Nutch的应用
  • 2.7 本章小结
  • 第3章 学术搜索引擎总体设计
  • 3.1 需求分析
  • 3.1.1 需求描述
  • 3.1.2 功能需求
  • 3.1.3 非功能需求
  • 3.2 总体设计
  • 3.3 本章小结
  • 第4章 主题爬取和解析模块的研究与实现
  • 4.1 总体流程
  • 4.2 网页主题相关性过滤
  • 4.2.1 主题相关性过滤原理
  • 4.2.2 主题相关性过滤的实现
  • 4.3 通用网页解析器
  • 4.3.1 通用网页解析器的设计原理
  • 4.3.2 通用网页解析器的实现
  • 4.3.3 通用网页解析器的定制解析
  • 4.4 本章小结
  • 第5章 索引与检索模块的研究与实现
  • 5.1 基于时间域的索引模块的构建
  • 5.1.1 索引模块的构建原理
  • 5.1.2 索引模块的实现
  • 5.1.3 索引模块对比
  • 5.2 检索模块
  • 5.2.1 基于时间域排序功能的实现
  • 5.2.2 LinkRank排序算法的引入
  • 5.3 中文分词
  • 5.4 本章小结
  • 第6章 学术搜索引擎的部署与展示
  • 6.1 用户定制模块
  • 6.2 增量爬取
  • 6.2.1 增量爬取的设计原理
  • 6.2.2 增量爬取的实现与意义
  • 6.3 相关词推荐
  • 6.4 运行环境与配置
  • 6.4.1 系统开发环境
  • 6.4.2 运行配置
  • 6.5 检索结果对比与分析
  • 6.5.1 与原始Nutch系统的对比与分析
  • 6.5.2 两种排序方式的对比与分析
  • 6.6 性能评估
  • 6.6.1 爬取速度评测与对比
  • 6.6.2 爬取速度改进
  • 6.7 本章小结
  • 第7章 总结与展望
  • 7.1 本文工作总结
  • 7.2 下一步工作展望
  • 参考文献
  • 致谢
  • 攻硕期间参与的项目及发表的论文
  • 相关论文文献

    • [1].基于Nutch的节能减排垂直搜索引擎设计与实现[J]. 计算机工程与设计 2016(09)
    • [2].Nutch搜索引擎的公安应用研究[J]. 中国刑警学院学报 2015(01)
    • [3].Nutch搜索引擎在网络舆情管控中的应用[J]. 警察技术 2015(03)
    • [4].Nutch中文分词的研究和改进[J]. 软件导刊 2011(06)
    • [5].Nutch的插件机制分析[J]. 广西师范大学学报(自然科学版) 2010(01)
    • [6].Nutch中文分词的设计与实现[J]. 河北北方学院学报(自然科学版) 2010(04)
    • [7].基于Nutch的搜索引擎的研究[J]. 电子技术与软件工程 2016(06)
    • [8].基于Nutch与元搜索引擎技术的高校网络舆情监测系统研究[J]. 计算机时代 2014(11)
    • [9].基于Nutch专题搜索引擎的研究[J]. 微计算机信息 2010(30)
    • [10].基于Nutch的农业垂直搜索引擎研究[J]. 计算机工程与设计 2014(06)
    • [11].基于Nutch的用户行为分析搜索引擎的实现[J]. 科技资讯 2009(15)
    • [12].Nutch中庖丁解牛中文分词的实现与评测[J]. 计算机与现代化 2010(06)
    • [13].基于Nutch海关主题搜索引擎的研究与设计[J]. 社科纵横(新理论版) 2012(04)
    • [14].基于Nutch农业搜索引擎的研究与设计[J]. 计算机工程与设计 2009(03)
    • [15].Nutch搜索引擎的页面排序修改方法研究[J]. 计算机工程与设计 2009(06)
    • [16].Nutch中文分词插件的编写与实现[J]. 信息技术 2010(02)
    • [17].基于Nutch的开放存取搜索引擎构建研究[J]. 现代图书情报技术 2010(10)
    • [18].Hadoop云平台下Nutch中文分词的研究与实现[J]. 小型微型计算机系统 2013(12)
    • [19].面向招聘信息主题搜索引擎的研究与设计[J]. 广西教育 2011(18)
    • [20].基于Nutch的医学信息搜索引擎研究与实现[J]. 软件导刊 2014(06)
    • [21].搜索引擎Nutch在校际Reminder中的应用与实现[J]. 软件导刊 2012(05)
    • [22].基于Nutch的Web数学公式提取[J]. 广西师范大学学报(自然科学版) 2011(01)
    • [23].基于Nutch搜索引擎的E-learning系统开发[J]. 湖北工业大学学报 2011(05)
    • [24].Nutch中PageRank的并行实现[J]. 计算机工程与设计 2010(20)
    • [25].Hadoop视角下的Nutch爬行性能优化[J]. 计算机应用 2013(10)
    • [26].基于Nutch的增量网页信息采集系统的设计与实现[J]. 软件 2015(11)
    • [27].Nutch中网页更新预测研究与优化[J]. 上海师范大学学报(自然科学版) 2016(04)
    • [28].基于用户兴趣模型的Nutch个性化搜索引擎研究[J]. 计算机时代 2015(09)
    • [29].基于Nutch的页面排序算法研究[J]. 杭州电子科技大学学报 2013(06)
    • [30].基于Nutch的就业垂直搜索引擎研究[J]. 计算机技术与发展 2019(02)

    标签:;  ;  ;  ;  

    基于Nutch的学术搜索引擎的研究与实现
    下载Doc文档

    猜你喜欢