基于Nutch的搜索系统的研究

基于Nutch的搜索系统的研究

论文摘要

随着互联网技术的发展,网络信息资源的急剧增长,网民人数越来越多,网络在人们的日常生活和工作的作用越来越大,因此人们越来越多地关注如何快速有效地从海量的网络信息中,提取出潜在的、有价值的信息,使之有效地在工作和生活中发挥作用。搜索引擎(Search Engine)技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。搜索引擎是一个对Web上的信息资源进行搜集整理,然后提供查询服务的系统,实际是Web上的一类网站,这类网站与一般的网站不同,其主要工作是自动搜寻Web信息,将其进行分类、建立索引,然后把索引的内容存放到索引库中,便于以查询方式提交给用户。自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web搜索引擎技术已经经历了三代发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究的主要焦点集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。本文对搜索引擎的架构、原理、组成、工作流程做了阐述。搜索引擎一般由搜索模块、索引模块、检索模块和用户接口组成。搜索模块主要功能是从Web上下载页面;索引模块对下载的页面内容进行分析并建立索引;检索模块实现用户查询关键词和目标文档匹配度的计算;用户接口为用户提供一个输入查询请求,定制查询结果的Web页面并将查询结果格式化后返回给浏览器。本文在分析了搜一引擎的三个主要组成部分之后对如何提高搜索引擎的精确度和相关度进行了深入研究,对中文分词技术作了较详细的讨论,对其核心算法做了分析。本文重点开发了中科慧创科技有限公司的补丁网站搜索系统。本文从介绍Nutch搜索引擎入手,详细说明了中科会会慧创科技有限公司的补丁网站搜索系统开发过程和方法,并且利用中国科学院计算技术研究所开发的汉语词法分析系统ICTCLAS来改进Nutch的中文分词模块,并且利用用户二次检索和重要主页加分等方法,对原有的基础排序算法进行了改进,提高了搜索结果的精确度。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 搜索引擎简介
  • 1.1.1 什么是搜索引擎
  • 1.1.2 搜索引擎的发展历史
  • 1.1.3 搜索引擎的分类
  • 1.1.4 当前主流搜索引擎简介
  • 1.2 搜索引擎研究现状
  • 1.3 搜索引擎的发展趋势
  • 1.4 本文研究的主要工作
  • 1.5 论文的结构
  • 第二章 搜索引擎的综合研究
  • 2.1 搜索引擎与传统信息检索
  • 2.2 搜索引擎的体系结构
  • 2.2.1 网页采集模块(搜索器Crawler)
  • 2.2.2 索引模块(Indexer)
  • 2.2.2.1 建立索引的过程
  • 2.2.3 检索模块(Searcher)
  • 2.3 实际系统研究
  • 2.3.1 Google的整体结构
  • 2.3.2 Google的工作过程
  • 2.3.3 Google中的主要数据结构
  • 2.3.4 Google主要技术分析
  • 2.4 本章小结
  • 第三章 中文分词技术和页面优先度算法
  • 3.1 搜索引擎的性能指标
  • 3.2 中文分词技术
  • 3.2.1 什么是中文分词技术
  • 3.2.2 中文分词技术
  • 3.3 页面优先度算法研究
  • 3.3.1 页面优先度算法基础
  • 3.3.2 页面优先度算法
  • 3.4 本章小结
  • 第四章 NUTCH搜索引擎介绍
  • 4.1 Nutch搜索引擎简介
  • 4.2 Nutch的基本结构
  • 4.3 Lucene索引结构
  • 4.3.1 Lucene索引文件逻辑结构
  • 4.3.2 Lucene中的关键索引文件
  • 4.4 本章小结
  • 第五章 中科慧创有限公司补丁网站的搜索系统
  • 5.1 开发平台搭建
  • 5.2 开发软件的安装和配置
  • 5.3 在Nutch中增加中文分词模块
  • 5.3.1 Nutch原有的对中文的支持
  • 5.3.2 Nutch的Analysis包分析
  • 5.3.3 在Nutch中增加中文分词模块
  • 5.4 改进Nutch的页面优先度算法
  • 5.4.1 Nutch原有的叶面优先度算法
  • 5.4.2 改进后的页面优先度算法
  • 5.4.3 改进页面优先算法的软件实现
  • 5.5 系统运行步骤
  • 5.5.1 抓取页面前的准备工作
  • 5.5.2 运行Crawl命令抓取网站页面
  • 5.5.3 使用LUKE工具查看索引数据库
  • 5.5.4 使用TOMCAT进行测试搜索
  • 5.6 本章小结
  • 第六章 总结
  • 致谢
  • 参考文献
  • 在攻读期间取得的研究成果
  • 相关论文文献

    标签:;  ;  ;  

    基于Nutch的搜索系统的研究
    下载Doc文档

    猜你喜欢