基于Lucene技术的垂直搜索引擎的研究与实现

基于Lucene技术的垂直搜索引擎的研究与实现

论文摘要

随着Internet和WWW的迅速发展,Internet上的资源日趋丰富。为了帮助人们在浩如烟海的互联网中获取有用的信息,基于Internet的各类信息检索服务应运而生并得到了迅速发展。目前人们在互联网上搜索信息主要是通过Google、百度等通用搜索引擎。一般情况下,通用搜索引擎可以满足用户的需求。然而,当用户只想查询某一具体行业或某种主题的相关信息时,这类搜索引擎就会显得有些力不从心。垂直搜索引擎的出现,正好满足了这些特定的需求。针对某一领域、某一特定人群或某一特定需求建立的搜索引擎称为垂直搜索引擎,它已经逐渐成为人们获取专业网络信息的重要工具。Lucene是一个用Java语言编写的全文索引引擎工具包,它可以方便地嵌入到各种应用中,实现针对特定应用的垂直搜索功能。网络爬虫是垂直搜索引擎的数据来源,它的性能直接影响了信息采集的数量与质量,因此网络爬虫是搜索引擎的重要组成部分。Lucene本身没有提供信息采集的功能,本论文在介绍搜索引擎有关技术和开源网络爬虫Heritrix的基础上,通过对Heritrix进行扩展和改进,实现了一个垂直搜索爬虫,满足了特定的信息采集需求。测试结果表明改进后的网络爬虫的抓取效率较改进前有明显的提高。本论文还针对Lucene在搜索结果排序算法方面的不足进行了改进。改进前的Lucene排序算法根据查询和包含关键字的文档来计算相关度得分,没有考虑网页在互联网中的重要程度,还不能完全适应网页搜索。改进后的页面优先度排序算法在原有Lucene排序算法的基础上,考虑了网页的重要程度这一因素,增加了网页的链接情况来计算网页得分。对比分析的结果表明改进后的排序算法较好地反映了这个因素,把重要的网页排在了靠前的位置。在上述工作的基础上,论文最后设计和实现了一个垂直搜索引擎的原型系统,并提供了系统实现所采用的技术方法和核心代码,为垂直搜索引擎的构建和应用提供了有益的借鉴。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 通用搜索引擎概述
  • 1.1.1 搜索引擎的产生背景及定义
  • 1.1.2 搜索引擎分类
  • 1.1.3 通用搜索引擎面临的问题
  • 1.2 垂直搜索引擎的研究意义
  • 1.2.1 垂直搜索引擎的产生背景
  • 1.2.2 垂直搜索引擎的定义
  • 1.2.3 垂直搜索引擎的优点
  • 1.2.4 垂直搜索引擎的研究现状
  • 1.2.5 Lucene 技术的研究现状
  • 1.3 本文主要研究内容
  • 1.4 论文章节安排
  • 第二章 搜索引擎和LUCENE 的技术分析
  • 2.1 搜索引擎的组成及工作原理
  • 2.2 搜索引擎的性能指标
  • 2.3 LUCENE技术分析
  • 2.3.1 Lucene 的系统结构
  • 2.3.2 Lucene 的数据流分析
  • 2.3.3 Lucene 的索引结构分析
  • 2.3.4 Lucene 的基础排序算法
  • 2.3.5 Lucene 的优点与不足
  • 2.4 本章小结
  • 第三章 LUCENE 技术的扩展与改进
  • 3.1 网络爬虫HERITRIX
  • 3.1.1 Heritrix 简介
  • 3.1.2 Heritrix 的架构设计分析
  • 3.1.3 Heritrix 的扩展与改进
  • 3.2 LUCENE 基础排序算法的研究与改进
  • 3.2.1 信息检索模型
  • 3.2.2 排序算法
  • 3.2.3 对Lucene 基础排序算法的改进
  • 3.3 本章小结
  • 第四章 基于LUCENE 技术的垂直搜索引擎的设计与实现
  • 4.1 垂直搜索引擎总体系统架构
  • 4.2 信息采集子系统的设计与实现
  • 4.2.1 网络爬虫Heritrix 的改进与扩展
  • 4.2.2 基于网络爬虫Heritrix 的信息采集
  • 4.2.3 信息整理
  • 4.3 索引子系统的设计与实现
  • 4.3.1 构建专业词库
  • 4.3.2 基于Lucene 的索引构建
  • 4.3.3 基于Lucene 的索引优化分析
  • 4.4 查询子系统的设计与实现
  • 4.4.1 MVC 模式介绍
  • 4.4.2 基于MVC 模式的查询子系统的设计与实现
  • 4.4.3 页面优先度排序算法的实现
  • 4.5 本章小结
  • 第五章 系统性能的测试与评价
  • 5.1 网络爬虫的性能测试
  • 5.2 Lucene 改进前后的网页搜索结果排序的对比分析
  • 5.3 本章小结
  • 第六章 结论与展望
  • 6.1 全文工作总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 附录
  • 个人简历
  • 在学期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].基于Lucene的电网主厂站遥信信号自动对比验收技术研究与应用[J]. 电气传动自动化 2020(02)
    • [2].基于Lucene的生产管理系统一站式检索中心的研究与设计[J]. 现代计算机(专业版) 2016(36)
    • [3].基于Lucene的垂直搜索引擎的设计与实现[J]. 福建电脑 2015(12)
    • [4].一个基于Lucene的维文搜索引擎的设计与实现[J]. 福建电脑 2015(05)
    • [5].基于Lucene的试卷查重系统设计与实现[J]. 信息技术与信息化 2016(05)
    • [6].基于Lucene的垂直搜索引擎研究与实现[J]. 桂林电子科技大学学报 2014(03)
    • [7].基于Lucene语义检索优化数字图书馆信息服务研究[J]. 科技情报开发与经济 2014(15)
    • [8].基于Lucene的合理化建议搜索引擎研究与实现[J]. 网络安全技术与应用 2014(08)
    • [9].Lucene框架下构建高校校园网搜索引擎[J]. 电脑知识与技术 2013(11)
    • [10].实现Lucene接口的中文分词器的比较研究[J]. 科技信息 2012(12)
    • [11].基于Lucene全文检索在网络舆情的研究[J]. 信息安全与通信保密 2012(09)
    • [12].基于Lucene的高校图书垂直搜索引擎的研究与实现[J]. 太原师范学院学报(自然科学版) 2011(04)
    • [13].基于Lucene的全文检索构件的研究与实现[J]. 计算机应用与软件 2010(02)
    • [14].基于LUCENE的站内搜索的研究与实现[J]. 河北软件职业技术学院学报 2009(01)
    • [15].基于LUCENE的藏文全文检索的研究[J]. 西藏大学学报(自然科学版) 2009(01)
    • [16].基于本体和Lucene的语义检索模型设计与实现[J]. 现代电子技术 2009(12)
    • [17].基于Lucene的全文搜索引擎[J]. 现代计算机(专业版) 2009(11)
    • [18].基于Lucene技术的垂直搜索引擎的研究[J]. 软件导刊 2008(03)
    • [19].Lucene架构下布尔查询的执行计划研究[J]. 云南民族大学学报(自然科学版) 2019(06)
    • [20].基于银行关键字的Lucene测试用例检索系统[J]. 信息与电脑(理论版) 2017(08)
    • [21].基于Lucene引擎构建在线地址匹配服务[J]. 测绘与空间地理信息 2016(02)
    • [22].基于Lucene的中文分词系统设计与实现[J]. 自动化与仪器仪表 2016(05)
    • [23].基于Lucene的图像检索实验设计[J]. 实验室研究与探索 2013(10)
    • [24].基于Lucene的全文搜索排序算法的研究与改进[J]. 武汉纺织大学学报 2013(06)
    • [25].基于Lucene的倒排索引性能的研究[J]. 无线互联科技 2014(08)
    • [26].基于Lucene的校园网智能搜索引擎的设计与实现[J]. 现代电子技术 2013(06)
    • [27].基于本体和Lucene的网络教育资源管理检索系统[J]. 计算机应用与软件 2012(07)
    • [28].Lucene排序算法的研究和改进[J]. 中国新技术新产品 2011(04)
    • [29].Lucene的全文检索的研究与应用[J]. 计算机技术与发展 2010(02)
    • [30].构建基于Lucene的网站站内搜索[J]. 信息与电脑(理论版) 2010(04)

    标签:;  ;  

    基于Lucene技术的垂直搜索引擎的研究与实现
    下载Doc文档

    猜你喜欢