论文摘要
随着互联网技术的发展,网络信息资源的急剧增长,网民人数越来越多,网络在人们的日常生活和工作的作用越来越大,因此人们越来越多地关注如何快速有效地从海量的网络信息中,提取出潜在的、有价值的信息,使之有效地在工作和生活中发挥作用。搜索引擎(Search Engine)技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界争相研究、开发的对象。搜索引擎是一个对Web上的信息资源进行搜集整理,然后提供查询服务的系统,实际是Web上的一类网站,这类网站与一般的网站不同,其主要工作是自动搜寻Web信息,将其进行分类、建立索引,然后把索引的内容存放到索引库中,便于以查询方式提交给用户。自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web搜索引擎技术已经经历了三代发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究的主要焦点集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。本文对搜索引擎的架构、原理、组成、工作流程做了阐述。搜索引擎一般由搜索模块、索引模块、检索模块和用户接口组成。搜索模块主要功能是从Web上下载页面;索引模块对下载的页面内容进行分析并建立索引;检索模块实现用户查询关键词和目标文档匹配度的计算;用户接口为用户提供一个输入查询请求,定制查询结果的Web页面并将查询结果格式化后返回给浏览器。本文在分析了搜一引擎的三个主要组成部分之后对如何提高搜索引擎的精确度和相关度进行了深入研究,对中文分词技术作了较详细的讨论,对其核心算法做了分析。本文重点开发了中科慧创科技有限公司的补丁网站搜索系统。本文从介绍Nutch搜索引擎入手,详细说明了中科会会慧创科技有限公司的补丁网站搜索系统开发过程和方法,并且利用中国科学院计算技术研究所开发的汉语词法分析系统ICTCLAS来改进Nutch的中文分词模块,并且利用用户二次检索和重要主页加分等方法,对原有的基础排序算法进行了改进,提高了搜索结果的精确度。
论文目录
摘要Abstract第一章 绪论1.1 搜索引擎简介1.1.1 什么是搜索引擎1.1.2 搜索引擎的发展历史1.1.3 搜索引擎的分类1.1.4 当前主流搜索引擎简介1.2 搜索引擎研究现状1.3 搜索引擎的发展趋势1.4 本文研究的主要工作1.5 论文的结构第二章 搜索引擎的综合研究2.1 搜索引擎与传统信息检索2.2 搜索引擎的体系结构2.2.1 网页采集模块(搜索器Crawler)2.2.2 索引模块(Indexer)2.2.2.1 建立索引的过程2.2.3 检索模块(Searcher)2.3 实际系统研究2.3.1 Google的整体结构2.3.2 Google的工作过程2.3.3 Google中的主要数据结构2.3.4 Google主要技术分析2.4 本章小结第三章 中文分词技术和页面优先度算法3.1 搜索引擎的性能指标3.2 中文分词技术3.2.1 什么是中文分词技术3.2.2 中文分词技术3.3 页面优先度算法研究3.3.1 页面优先度算法基础3.3.2 页面优先度算法3.4 本章小结第四章 NUTCH搜索引擎介绍4.1 Nutch搜索引擎简介4.2 Nutch的基本结构4.3 Lucene索引结构4.3.1 Lucene索引文件逻辑结构4.3.2 Lucene中的关键索引文件4.4 本章小结第五章 中科慧创有限公司补丁网站的搜索系统5.1 开发平台搭建5.2 开发软件的安装和配置5.3 在Nutch中增加中文分词模块5.3.1 Nutch原有的对中文的支持5.3.2 Nutch的Analysis包分析5.3.3 在Nutch中增加中文分词模块5.4 改进Nutch的页面优先度算法5.4.1 Nutch原有的叶面优先度算法5.4.2 改进后的页面优先度算法5.4.3 改进页面优先算法的软件实现5.5 系统运行步骤5.5.1 抓取页面前的准备工作5.5.2 运行Crawl命令抓取网站页面5.5.3 使用LUKE工具查看索引数据库5.5.4 使用TOMCAT进行测试搜索5.6 本章小结第六章 总结致谢参考文献在攻读期间取得的研究成果
相关论文文献
标签:搜索引擎论文; 中文分词论文; 网页排序论文;