基于SSH和Lucene垂直搜索引擎研究

基于SSH和Lucene垂直搜索引擎研究

论文摘要

随着互联网的发展,现在中国网民居世界首位。网络上信息量的剧增使得通用搜索引擎显得有点力不从心,垂直搜索引擎的出现,就是为了解决这类问题。开源垂直搜索引擎中Lucene的分词模块使用简单分词机制,存在分词精度不高的缺点。因此本文引入了一种基于位图数据结构与条件随机场模型的中文分词词典机制,在一定程度上提高了分词的精度,降低了词典机制的空间复杂度。实验表明:分词词典所占用的内存减少的同时,垂直搜索精度有一定的提高。具体工作如下:(1)论述了垂直搜索引擎的研究价值跟背景,并且深入分析了垂直搜索引擎的两大核心技术:中文分词技术,以及Lucene排序技术。(2)主要对Lucene源码包进行了必要的学习与研究,分析其中两种中文分词算法,双字切分算法和正向最大匹配算法,但是存在分词精度不高的缺点,因而可以改进既有的Lucene分词包来提高中文分词的精度,并将它应用于垂直搜索引擎当中。(3)设计了一个垂直搜索引擎系统,使用了一些开源的框架:Spring、Struts2和Hibernate。整个系统包括了网页抓取模块、蜘蛛模块、信息提取模块、以及索引与检索模块。采用HtmlParser提取网页信息,引入了改进的基于位图与条件随机场中文分词模块来对中文进行分词,提高了中文分词的精度。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 研究背景及国内现状
  • 1.2.1 垂直搜索的研究背景
  • 1.2.2 垂直搜索现状研究
  • 1.3 存在的问题及本文工作
  • 1.4 论文的组织结构
  • 第二章 垂直搜索关键技术研究与分析
  • 2.1 垂直搜索关机技术简介
  • 2.2 Lucene 中文分词
  • 2.2.1 Lucene 词典中文切词
  • 2.2.2 条件随机场模型
  • 2.3 Lucene 排序模型与PageRank 算法
  • 2.3.1 Lucene 排序模型
  • 2.3.2 PageRank 算法
  • 2.4 本章小结
  • 第三章 框架整合分析与研究
  • 3.1 Spring 容器框架研究
  • 3.2 MVC 控制器框架
  • 3.3 持久化框架
  • 3.4 框架的整合与优化
  • 3.4.1 SSH 框架的整合
  • 3.4.2 框架的优化
  • 3.5 本章小结
  • 第四章 基于位图和条件随机场的中文分词算法
  • 4.1 经典的分词词典机制及汉词特点
  • 4.1.1 三种词典机制
  • 4.1.2 正向最大匹配算法FFM
  • 4.1.3 汉字特点及分布规律
  • 4.2 词典机制的改进
  • 4.2.1 文献分词词典数据结构
  • 4.2.2 引进位图后的词典结构及算法
  • 4.3 基于条件随机场模型的中文分词
  • 4.3.1 标注方法
  • 4.3.2 特征选择
  • 4.3.3 训练模型
  • 4.4 本章小结
  • 第五章 分词实验及垂直搜索应用
  • 5.1 中文分词机制实现分析
  • 5.1.1 空间复杂度跟时间复杂度分析
  • 5.1.2 分词机制与垂直搜索
  • 5.2 分词评测
  • 5.3 垂直搜索实验分析
  • 5.3.1 架构分析与模块设计
  • 5.3.2 垂直搜索系统测试
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 附录 (攻读硕士学位期间发表录用论文)
  • 详细摘要
  • 相关论文文献

    • [1].基于Lucene的电网主厂站遥信信号自动对比验收技术研究与应用[J]. 电气传动自动化 2020(02)
    • [2].基于Lucene的生产管理系统一站式检索中心的研究与设计[J]. 现代计算机(专业版) 2016(36)
    • [3].基于Lucene的垂直搜索引擎的设计与实现[J]. 福建电脑 2015(12)
    • [4].一个基于Lucene的维文搜索引擎的设计与实现[J]. 福建电脑 2015(05)
    • [5].基于Lucene的试卷查重系统设计与实现[J]. 信息技术与信息化 2016(05)
    • [6].基于Lucene的垂直搜索引擎研究与实现[J]. 桂林电子科技大学学报 2014(03)
    • [7].基于Lucene语义检索优化数字图书馆信息服务研究[J]. 科技情报开发与经济 2014(15)
    • [8].基于Lucene的合理化建议搜索引擎研究与实现[J]. 网络安全技术与应用 2014(08)
    • [9].Lucene框架下构建高校校园网搜索引擎[J]. 电脑知识与技术 2013(11)
    • [10].实现Lucene接口的中文分词器的比较研究[J]. 科技信息 2012(12)
    • [11].基于Lucene全文检索在网络舆情的研究[J]. 信息安全与通信保密 2012(09)
    • [12].基于Lucene的高校图书垂直搜索引擎的研究与实现[J]. 太原师范学院学报(自然科学版) 2011(04)
    • [13].基于Lucene的全文检索构件的研究与实现[J]. 计算机应用与软件 2010(02)
    • [14].基于LUCENE的站内搜索的研究与实现[J]. 河北软件职业技术学院学报 2009(01)
    • [15].基于LUCENE的藏文全文检索的研究[J]. 西藏大学学报(自然科学版) 2009(01)
    • [16].基于本体和Lucene的语义检索模型设计与实现[J]. 现代电子技术 2009(12)
    • [17].基于Lucene的全文搜索引擎[J]. 现代计算机(专业版) 2009(11)
    • [18].基于Lucene技术的垂直搜索引擎的研究[J]. 软件导刊 2008(03)
    • [19].Lucene架构下布尔查询的执行计划研究[J]. 云南民族大学学报(自然科学版) 2019(06)
    • [20].基于银行关键字的Lucene测试用例检索系统[J]. 信息与电脑(理论版) 2017(08)
    • [21].基于Lucene引擎构建在线地址匹配服务[J]. 测绘与空间地理信息 2016(02)
    • [22].基于Lucene的中文分词系统设计与实现[J]. 自动化与仪器仪表 2016(05)
    • [23].基于Lucene的图像检索实验设计[J]. 实验室研究与探索 2013(10)
    • [24].基于Lucene的全文搜索排序算法的研究与改进[J]. 武汉纺织大学学报 2013(06)
    • [25].基于Lucene的倒排索引性能的研究[J]. 无线互联科技 2014(08)
    • [26].基于Lucene的校园网智能搜索引擎的设计与实现[J]. 现代电子技术 2013(06)
    • [27].基于本体和Lucene的网络教育资源管理检索系统[J]. 计算机应用与软件 2012(07)
    • [28].Lucene排序算法的研究和改进[J]. 中国新技术新产品 2011(04)
    • [29].Lucene的全文检索的研究与应用[J]. 计算机技术与发展 2010(02)
    • [30].构建基于Lucene的网站站内搜索[J]. 信息与电脑(理论版) 2010(04)

    标签:;  ;  ;  

    基于SSH和Lucene垂直搜索引擎研究
    下载Doc文档

    猜你喜欢