基于Lucene的Web站内信息搜索系统

基于Lucene的Web站内信息搜索系统

论文题目: 基于Lucene的Web站内信息搜索系统

论文类型: 硕士论文

论文专业: 计算机软件与理论

作者: 刘平冰

导师: 汪文勇

关键词: 搜索引擎,精确度

文献来源: 电子科技大学

发表年度: 2005

论文摘要: 随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前Web 搜索引擎(Search Engine)技术正成为计算机科学界和信息产业界争相研究、开发的对象。搜索引擎(Search Engine)是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web 搜索引擎技术已经经历了三代发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究的主要焦点集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。本文首先介绍了Web 搜索引擎的基本原理、核心技术和处理流程,并对如何提高搜索引擎的精确度和相关度进行了深入研究,对其核心算法进行了讨论和评估。本文重点开发了四川省通信管理局Web 站内信息搜索系统。本文从介绍了基于Java 的全文索引引擎Lucene 软件包入手,详细说明了四川省通信管理局Web 网站站内信息搜索系统的开发过程和方法。并且利用PageRank 算法、用户二次检索和重要主页加分等方法,对原有的基础排序算法进行了改进,提高了搜索结果的精确度。

论文目录:

第1章 绪论

1.1 什么是搜索引擎

1.2 搜索引擎产生的背景和发展历史

1.3 搜索引擎的分类

1.4 主要搜索引擎简介

1.5 本文的主要工作

1.6 论文的结构

第2章 搜索引擎的基本原理及数据结构剖析

2.1 搜索引擎的基本组成及其功能

2.2 搜索引擎的详细工作流程

2.3 搜索引擎的软件数据结构

2.3.1 页面存储库(Repository)

2.3.2 文档索引库(Document Index)

2.3.3 词典库(Lexicon)

2.3.4 Hit 列表

2.3.5 前向索引表(Forward Index)

2.3.6 后向索引表(Inverted Index)

第3章 搜索引擎的精度研究和页面优先算法

3.1 搜索引擎的性能指标

3.2 页面优先度算法基础

3.2.1 网页出度和入度

3.2.2 互联网网站链接组织结构

3.3 网页信息相关的页面优先度算法

3.3.1 以网页内容为基础的算法

3.3.2 以网页链接为基础的PageRank 算法

3.4 用户行为相关的页面优先度算法

3.4.1 以用户点击率为基础的DirectHit 算法

3.4.2 其他与用户行为相关的方法

3.5 页面自动聚类技术

3.5.1 页面相关度介绍

3.5.2 页面自动聚类方法

第4章 Lucene 软件包介绍

4.1 Lucene 软件包简介

4.2 Lucene 全文检索的实现机制

4.3 Lucene 的创新之处

第5章 四川省通信管理局WEB 站内信息搜索系统

5.1 开发平台搭建

5.2 开发软件安装和配置

5.3 四川省通信管理局WEB 站内信息搜索系统软件结构及流程

5.3.1 搜索系统的索引过程

5.3.2 搜索系统的检索过程

5.3.3 四川省通信管理局站内信息搜索引擎系统主程序

5.4 四川省通信管理局WEB 站内信息搜索系统页面设计

5.5 四川省通信管理局WEB 站内信息搜索系统运行

第6章 四川省通信管理局WEB 站内信息搜索系统的改进页面优先算法

6.1 原有基础排序算法

6.2 改进后的页面优先算法

6.3 改进页面优先算法的软件实现

6.3.1 重要主页加分部分的软件实现

6.3.2 用户二次检索部分的软件实现

6.3.3 PageRank 算法部分的软件实现

6.3.4 权重系数平衡

6.4 改进页面优先算法对搜索系统性能的提高

6.5 下一步工作

第7章 结束语

参考文献

发布时间: 2005-09-23

参考文献

  • [1].垂直门户网站产品搜索系统的设计与实现[D]. 朱洪涛.北京邮电大学2010
  • [2].基于Web的软包装企业管理信息系统设计与实现[D]. 冉佩佩.北京印刷学院2018
  • [3].基于模块化的多角色web系统设计研究[D]. 胡登.合肥工业大学2018
  • [4].基于Web的3D模型浏览与交互系统[D]. 郭明金.湘潭大学2018
  • [5].Web应用漏洞的检测方法研究与实现[D]. 许苗华.中南林业科技大学2018
  • [6].基于Web的电网巡视管理系统的设计与实现[D]. 易文丽.湖南大学2016
  • [7].GPU加速的Web应用漏洞检测技术研究与实现[D]. 李绍滔.湖南大学2016
  • [8].基于OPC的工业设备Web监测系统设计与开发[D]. 赵策.浙江工业大学2017
  • [9].基于扩展Web技术的跨设备交互框架的研究与实现[D]. 李齐雨.西北大学2018
  • [10].基于改进模糊测试的Web漏洞挖掘算法研究[D]. 陆紫光.广西大学2018

标签:;  ;  

基于Lucene的Web站内信息搜索系统
下载Doc文档

猜你喜欢