基于lucene的搜索引擎

基于lucene的搜索引擎

论文摘要

基于Heritrix+Lucene数据库搜索引擎是一种将抓取和索引的技术优势融入到搜索引擎的方法,用户通过查询接口输入关键词,将用户输入字符串根据分词词典进行分词,将根据分词查询索引文件,关联相关的源文档,从而返回查询信息的过程。在服务器安全性、链接有效性以及更新及时性等方面拥有良好的性能。本文分析了基于Heritrix+Lucene数据库搜索引擎在工作原理、关键技术等方面的相关技术,介绍了Lucene建立索引和搜索的原理,并且在构建词库的同时,研究了分词技术,提出了一种优化词表法的分词思想,在Lucene的基础上以决策树和链表的形式将字典中的分词存储在内存中,用最大匹配算法结合决策树将用户输入字符串进行分词,开发了属于自己的中文分词模块,将这种思想加以实现并且通过实验与传统的Lucene自带的分词技术在空间和时间上以及分词的准确性三个方面进行比较。同时也对Lucene自带的相似度计算,用实验数据进行了统计分析,得到对文章的匹配度策略加入权重的参数,使得匹配度相对更准确。最后通过Heritrix与Lucene进行整合,实现了基于数码产品搜索引擎。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究的背景及现状
  • 1.2 研究的意义和目的
  • 1.3 本文的创新点
  • 1.4 本文的组织结构
  • 第二章 全文检索系统分析与设计
  • 2.1 全文数据库的特点
  • 2.2 全文查询与一般查询的比较
  • 2.3 全文检索库构成
  • 第三章 词表法研究及其优化
  • 3.1 全文的索引组织
  • 3.1.1 正排与倒排表
  • 3.1.2 字表法
  • 3.1.3 词表法
  • 3.1.4 最大概率切分算法
  • 3.1.5 N 元语法统计切分算法
  • 3.1.6 词表法的优化
  • 3.2 向量空间模型
  • 第四章 lucene 全文搜索引擎
  • 4.1 lucene 系统结构与源代码组织结构
  • 4.2 建立索引
  • 4.2.1 索引逻辑结构
  • 4.2.2 索引物理结构
  • 4.3 lucene 相关搜索类
  • 4.4 用户扩充
  • 第五章 数码产品搜索引擎构建
  • 5.1 Heritrix 网页抓取
  • 5.2 处理抓取网页,构建分词词典
  • 5.3 分词技术
  • 5.4 建立索引文件和相关搜索
  • 5.5 数据库交互
  • 5.6 Hibernate
  • 5.7 DWR
  • 5.8 Spring
  • 5.9 配置文件web.xml
  • 5.10 前台展示jsp 页面
  • 第六章 结论
  • 6.1 论文的总结和创新点
  • 6.2 论文存在的不足和未来研究方向
  • 致谢
  • 参考文献
  • 攻读硕士研究生期间发表的论文及参与的项目
  • 相关论文文献

    • [1].基于Lucene的电网主厂站遥信信号自动对比验收技术研究与应用[J]. 电气传动自动化 2020(02)
    • [2].基于Lucene的生产管理系统一站式检索中心的研究与设计[J]. 现代计算机(专业版) 2016(36)
    • [3].基于Lucene的垂直搜索引擎的设计与实现[J]. 福建电脑 2015(12)
    • [4].一个基于Lucene的维文搜索引擎的设计与实现[J]. 福建电脑 2015(05)
    • [5].基于Lucene的试卷查重系统设计与实现[J]. 信息技术与信息化 2016(05)
    • [6].基于Lucene的垂直搜索引擎研究与实现[J]. 桂林电子科技大学学报 2014(03)
    • [7].基于Lucene语义检索优化数字图书馆信息服务研究[J]. 科技情报开发与经济 2014(15)
    • [8].基于Lucene的合理化建议搜索引擎研究与实现[J]. 网络安全技术与应用 2014(08)
    • [9].Lucene框架下构建高校校园网搜索引擎[J]. 电脑知识与技术 2013(11)
    • [10].实现Lucene接口的中文分词器的比较研究[J]. 科技信息 2012(12)
    • [11].基于Lucene全文检索在网络舆情的研究[J]. 信息安全与通信保密 2012(09)
    • [12].基于Lucene的高校图书垂直搜索引擎的研究与实现[J]. 太原师范学院学报(自然科学版) 2011(04)
    • [13].基于Lucene的全文检索构件的研究与实现[J]. 计算机应用与软件 2010(02)
    • [14].基于LUCENE的站内搜索的研究与实现[J]. 河北软件职业技术学院学报 2009(01)
    • [15].基于LUCENE的藏文全文检索的研究[J]. 西藏大学学报(自然科学版) 2009(01)
    • [16].基于本体和Lucene的语义检索模型设计与实现[J]. 现代电子技术 2009(12)
    • [17].基于Lucene的全文搜索引擎[J]. 现代计算机(专业版) 2009(11)
    • [18].基于Lucene技术的垂直搜索引擎的研究[J]. 软件导刊 2008(03)
    • [19].Lucene架构下布尔查询的执行计划研究[J]. 云南民族大学学报(自然科学版) 2019(06)
    • [20].基于银行关键字的Lucene测试用例检索系统[J]. 信息与电脑(理论版) 2017(08)
    • [21].基于Lucene引擎构建在线地址匹配服务[J]. 测绘与空间地理信息 2016(02)
    • [22].基于Lucene的中文分词系统设计与实现[J]. 自动化与仪器仪表 2016(05)
    • [23].基于Lucene的图像检索实验设计[J]. 实验室研究与探索 2013(10)
    • [24].基于Lucene的全文搜索排序算法的研究与改进[J]. 武汉纺织大学学报 2013(06)
    • [25].基于Lucene的倒排索引性能的研究[J]. 无线互联科技 2014(08)
    • [26].基于Lucene的校园网智能搜索引擎的设计与实现[J]. 现代电子技术 2013(06)
    • [27].基于本体和Lucene的网络教育资源管理检索系统[J]. 计算机应用与软件 2012(07)
    • [28].Lucene排序算法的研究和改进[J]. 中国新技术新产品 2011(04)
    • [29].Lucene的全文检索的研究与应用[J]. 计算机技术与发展 2010(02)
    • [30].构建基于Lucene的网站站内搜索[J]. 信息与电脑(理论版) 2010(04)

    标签:;  ;  

    基于lucene的搜索引擎
    下载Doc文档

    猜你喜欢