基于Lucene的汽车信息垂直搜索引擎的设计与实现

基于Lucene的汽车信息垂直搜索引擎的设计与实现

论文摘要

随着互联网上Web信息爆炸性的增长,如何获取更加准确、更加详细、更加深层的专业信息,成为对搜索引擎提出的新要求。因此,面向主题的垂直搜索引擎系统应运而生。本文以用户对汽车信息的搜索需求为研究背景;采用垂直搜索技术,将通过元搜索获取的汽车信息作为采集对象;在开源的全文检索软件包Lucene的基础上,修改Nutch系统框架,设计和实现了对汽车信息具有专业化搜索功能的垂直搜索引擎。主要工作如下:1.回顾了搜索引擎的发展历史及分类;通过对通用搜索引擎面临问题的分析,体现出垂直搜索引擎在专业搜索方面的优势;给出垂直搜索引擎的研究现状及介绍了本系统使用的Lucene搜索引擎工具包。2.分析专业网络爬虫和Web信息抽取等垂直搜索引擎的关键技术。重点研究了主题相关度判定算法、网页搜索策略和HTMLParser信息抽取方法。3.研究了Lucene工具包:重点分析其索引和查询模块;介绍其结果排序计算体系;介绍了Lucene与Nutch的关系。4.基于以上关键技术,通过需求分析,提出了汽车信息垂直搜索引擎设计方案:包括系统设计思想,技术策略,系统结构框架,开发环境等;给出了系统用例和动态模型。5.对分析和设计获得的三大模块:主题信息抓取部分、信息分析与索引部分、主题信息检索部分进行具体实现,并对系统运行过程和结果进行了展示。6.在系统实现的基础上,给出一种基于连续型Hopfield神经网络的相关检索词智能推荐算法。实践表明,本文设计和实现的汽车信息垂直搜索引擎的方案是切实可行的,系统基本达到了预期的设计目标。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 通用搜索引擎
  • 1.2.1 搜索引擎的发展历史及分类
  • 1.2.2 通用搜索引擎面临的问题
  • 1.2.3 搜索引擎未来的发展趋势
  • 1.3 垂直搜索引擎
  • 1.3.1 垂直搜索引擎的优势
  • 1.3.2 垂直搜索引擎研究现状
  • 1.4 LUCENE搜索引擎工具包
  • 1.5 本文组织结构
  • 2 垂直搜索引擎关键技术
  • 2.1 专业网络爬虫技术
  • 2.1.1 专业爬虫工作原理及关键技术
  • 2.1.2 主题相关度判定
  • 2.1.3 网页搜索策略
  • 2.2 WEB信息抽取技术
  • 2.2.1 Web信息抽取技术概述
  • 2.2.2 Web信息抽取方法
  • 2.2.3 基于HTMLParser的Web信息抽取
  • 2.2.4 HTMLParser对Web信息处理算法
  • 3 基于LUCENE的索引与查询
  • 3.1 LUCENE全文检索的实现机制
  • 3.2 LUCENE信息索引
  • 3.2.1 索引分类
  • 3.2.2 Lucene索引结构
  • 3.3 LUCENE查询处理
  • 3.4 LUCENE结果排序
  • 3.4.1 Lucene排序相关性因素
  • 3.4.2 Lucene排序计算体系
  • 3.4.3 Lucene排序公式
  • 3.5 LUCENE与NUTCH
  • 3.5.1 Nutch概述
  • 3.5.2 Nutch系统结构
  • 4 汽车信息垂直搜索系统分析与设计
  • 4.1 汽车信息垂直搜索系统需求分析
  • 4.1.1 业务分析
  • 4.1.2 基本功能需求分析
  • 4.2 汽车信息垂直搜索系统结构
  • 4.2.1 信息抓取模块
  • 4.2.2 信息预处理模块
  • 4.2.3 检索服务模块
  • 4.3 汽车信息垂直搜索系统用例模型
  • 4.3.1 角色的确定
  • 4.3.2 创建用例
  • 4.4 汽车信息垂直搜索系统动态模型
  • 5 汽车信息垂直搜索系统实现
  • 5.1 系统开发环境
  • 5.2 汽车主题信息抓取
  • 5.2.1 主题关键词管理
  • 5.2.2 主题URL管理
  • 5.2.3 主题信息下载
  • 5.3 汽车主题信息分析与索引
  • 5.3.1 网页信息分析
  • 5.3.2 创建索引
  • 5.4 汽车主题信息检索
  • 5.4.1 检索实现
  • 5.4.2 检索结果排序
  • 5.4.3 检索结果返回
  • 5.5 相关检索词的智能推荐算法
  • 5.5.1 建立概念词集合
  • 5.5.2 概念词同现率计算
  • 5.5.3 概念相关词的生成
  • 5.5.4 概念集的建立
  • 5.5.5 概念集的维护
  • 5.5.6 检索相关词的生成
  • 6 总结与展望
  • 6.1 系统总结
  • 6.2 系统不足与展望
  • 致谢
  • 参考文献
  • 硕士研究生学习阶段发表论文
  • 相关论文文献

    • [1].基于Lucene的电网主厂站遥信信号自动对比验收技术研究与应用[J]. 电气传动自动化 2020(02)
    • [2].基于Lucene的生产管理系统一站式检索中心的研究与设计[J]. 现代计算机(专业版) 2016(36)
    • [3].基于Lucene的垂直搜索引擎的设计与实现[J]. 福建电脑 2015(12)
    • [4].一个基于Lucene的维文搜索引擎的设计与实现[J]. 福建电脑 2015(05)
    • [5].基于Lucene的试卷查重系统设计与实现[J]. 信息技术与信息化 2016(05)
    • [6].基于Lucene的垂直搜索引擎研究与实现[J]. 桂林电子科技大学学报 2014(03)
    • [7].基于Lucene语义检索优化数字图书馆信息服务研究[J]. 科技情报开发与经济 2014(15)
    • [8].基于Lucene的合理化建议搜索引擎研究与实现[J]. 网络安全技术与应用 2014(08)
    • [9].Lucene框架下构建高校校园网搜索引擎[J]. 电脑知识与技术 2013(11)
    • [10].实现Lucene接口的中文分词器的比较研究[J]. 科技信息 2012(12)
    • [11].基于Lucene全文检索在网络舆情的研究[J]. 信息安全与通信保密 2012(09)
    • [12].基于Lucene的高校图书垂直搜索引擎的研究与实现[J]. 太原师范学院学报(自然科学版) 2011(04)
    • [13].基于Lucene的全文检索构件的研究与实现[J]. 计算机应用与软件 2010(02)
    • [14].基于LUCENE的站内搜索的研究与实现[J]. 河北软件职业技术学院学报 2009(01)
    • [15].基于LUCENE的藏文全文检索的研究[J]. 西藏大学学报(自然科学版) 2009(01)
    • [16].基于本体和Lucene的语义检索模型设计与实现[J]. 现代电子技术 2009(12)
    • [17].基于Lucene的全文搜索引擎[J]. 现代计算机(专业版) 2009(11)
    • [18].基于Lucene技术的垂直搜索引擎的研究[J]. 软件导刊 2008(03)
    • [19].Lucene架构下布尔查询的执行计划研究[J]. 云南民族大学学报(自然科学版) 2019(06)
    • [20].基于银行关键字的Lucene测试用例检索系统[J]. 信息与电脑(理论版) 2017(08)
    • [21].基于Lucene引擎构建在线地址匹配服务[J]. 测绘与空间地理信息 2016(02)
    • [22].基于Lucene的中文分词系统设计与实现[J]. 自动化与仪器仪表 2016(05)
    • [23].基于Lucene的图像检索实验设计[J]. 实验室研究与探索 2013(10)
    • [24].基于Lucene的全文搜索排序算法的研究与改进[J]. 武汉纺织大学学报 2013(06)
    • [25].基于Lucene的倒排索引性能的研究[J]. 无线互联科技 2014(08)
    • [26].基于Lucene的校园网智能搜索引擎的设计与实现[J]. 现代电子技术 2013(06)
    • [27].基于本体和Lucene的网络教育资源管理检索系统[J]. 计算机应用与软件 2012(07)
    • [28].Lucene排序算法的研究和改进[J]. 中国新技术新产品 2011(04)
    • [29].Lucene的全文检索的研究与应用[J]. 计算机技术与发展 2010(02)
    • [30].构建基于Lucene的网站站内搜索[J]. 信息与电脑(理论版) 2010(04)

    标签:;  ;  ;  ;  ;  

    基于Lucene的汽车信息垂直搜索引擎的设计与实现
    下载Doc文档

    猜你喜欢