基于多级Hash分词的全文搜索引擎的研究

基于多级Hash分词的全文搜索引擎的研究

论文摘要

中文分词作为现代搜索引擎技术的重要基础,一直以来是人们研究的热点和难点。Lucene是一个成熟、开源的软件项目,是一个高性能的信息检索和查询工具,通过对Lucene源代码的分析和编程实验,让我们领略到了Lucene的精髓。由于其提供了一套简单却十分强大的核心API,使得我们可以快速得将它集成到我们自己应用程序中。但是,Lucene的核心包和扩展包对中文分词采取类似英文的机械式切分方法。然而由于中英文之间在形式上存在着巨大的差异,这种切分方法的分词效果是非常低效的。本文在通过对Lucene分词的结构的分析,设计出了一种基于Hash的Lucene的高效机械分词方法。目前信息处理用的词典机制主要有整词二分、TRIE索引树、逐字二分等几种方法,其中TRIE索引树和逐字二分机制查询效率较高。这几种词典机制都是以排序的线性表来提高查询效率,数据结构比较复杂且查询速度较慢。本文主要工作是分析了几种常用词典构造方法的优缺点,针对分词中特定的查询条件,设计并实现了基于Hash的分词词典,同时分析了基于Hash的分词词典的性能。本文在此研究基础上开发出了个人桌面搜索引擎系统,索引和搜索部分利用Lucene引擎架构,实现了比Lucene自带的中文分词更有效的中文分词。文章最后在系统设计和实现的基础上,对中文分词进行了速度和准确率的测试,并在此基础上提出了今后努力的方向。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景和意义
  • 1.2 主要工作和贡献
  • 1.3 本论文的组织
  • 第二章 中文分词算法
  • 2.1 中文分词的研究进展
  • 2.1.1 主要的几种分词方法
  • 2.1.2 基于 Hash的机械分词
  • 2.2 常用的三种分词词典
  • 2.2.1 整词二分的分词词典机制
  • 2.2.2 TRIE索引树的分词词典机制
  • 2.2.3 基于逐字二分的词典机制
  • 2.2.4 三种分词词机制的实验结果
  • 2.3 多级 Hash的词典机制
  • 2.4 本章小结
  • 第三章 基于 Lucene的分词技术研究
  • 3.1 Lucene概述
  • 3.1.1 全文检索
  • 3.1.2 Lucene的特点
  • 3.1.3 Lucene的结构
  • 3.1.4 Lucene的工作流程
  • 3.1.5 Lucene的与索引相关的类
  • 3.1.6 Lucene的与查询相关的类
  • 3.2 Lucene的分析器
  • 3.2.1 Lucene分析器的结构
  • 3.2.2 Lucene的分析器
  • 3.2.3 Lucene的查询
  • 3.3 Lucene的分析器的研究
  • 3.3.1 分析器的结构分析
  • 3.3.2 新的分析器的实现
  • 3.4 基于 Hash的机械分词
  • 3.4.1 Hash算法
  • 3.4.2 词典的格式
  • 3.5 多级 Hash分词的实现
  • 3.5.1 分词模块
  • 3.5.2 索引模块
  • 3.5.3 搜索模块
  • 3.6 本章小结
  • 第四章 桌面搜索引擎系统的设计和实现
  • 4.1 系统总体结构
  • 4.2 开发环境介绍
  • 4.2.1 硬件环境
  • 4.2.2 软件资源
  • 4.3 桌面搜索引擎系统 CoSou的实现
  • 4.3.1 索引建立模块
  • 4.3.2 查询模块
  • 4.4 实验设计与结果分析
  • 4.4.1 测试环境搭建
  • 4.4.2 分词的衡量因素
  • 4.4.3 实验过程
  • 4.5 本章小结
  • 第五章 总结和展望
  • 5.1 总结
  • 5.2 下一步工作
  • 参考文献
  • 致谢
  • 攻读学位期间发表的论文
  • 相关论文文献

    • [1].全文搜索引擎搭建解析[J]. 现代计算机 2013(25)
    • [2].全文搜索引擎快速搭建的设计与实现[J]. 计算机与现代化 2012(11)
    • [3].中小型校园网全文搜索引擎的研究与实现[J]. 电子世界 2012(19)
    • [4].全文搜索引擎在煤矿运维系统中的应用[J]. 工矿自动化 2019(03)
    • [5].维、哈、柯多文种全文搜索引擎的设计与实现[J]. 计算机应用与软件 2009(06)
    • [6].基于WEB的全文搜索引擎系统设计与实现[J]. 安徽科技学院学报 2014(06)
    • [7].基于Google API的全文搜索引擎系统[J]. 读与写(教育教学刊) 2018(04)
    • [8].基于Lucene的全文搜索引擎的研究与实现[J]. 湖北广播电视大学学报 2010(05)
    • [9].基于Arachnode.net的全文搜索引擎搭建[J]. 黑龙江八一农垦大学学报 2014(01)
    • [10].全文搜索引擎的设计与实现[J]. 科技致富向导 2013(11)
    • [11].基于Lucene的全文搜索引擎的设计与实现[J]. 安徽科技 2012(12)
    • [12].基于PyQt的全文搜索引擎平台开发[J]. 软件导刊 2018(09)
    • [13].基于Solr和Mahout在线资讯自动分类与全文搜索引擎的实现[J]. 中国传媒科技 2013(17)
    • [14].全文搜索引擎e_Guide的设计与实现[J]. 电子商务 2013(11)
    • [15].全文搜索引擎技术[J]. 郑州铁路职业技术学院学报 2008(03)
    • [16].基于搜索引擎分类及特点的分析[J]. 中国新技术新产品 2011(11)
    • [17].维、哈、柯全文搜索引擎索引器的设计与实现[J]. 情报杂志 2008(10)
    • [18].森林碳汇文献全文搜索引擎的设计与实现[J]. 科技资讯 2008(33)
    • [19].基于Nutch的XML网站全文搜索引擎实现[J]. 计算机工程 2008(15)
    • [20].基于大数据技术的收费软件日志汇聚平台方案[J]. 中国交通信息化 2018(S1)
    • [21].基于Lucene的中文分词全文搜索引擎设计与实现[J]. 电脑知识与技术 2015(13)
    • [22].网站全文搜索引擎技术的初步研究及应用[J]. 科技信息 2009(11)
    • [23].维、哈、柯全文搜索引擎检索器的关键技术[J]. 计算机工程 2008(21)
    • [24].Compass在SSH架构项目中的应用[J]. 金融科技时代 2012(06)
    • [25].基于Lucene的全文搜索引擎设计与实现[J]. 福建电脑 2009(05)
    • [26].基于Lucene的多种排序方式的实现[J]. 电脑知识与技术 2015(17)
    • [27].因特网信息搜索策略优化的教学案例分析[J]. 中小学电教(下) 2010(11)
    • [28].基于Lucene的全文搜索引擎研究与应用[J]. 黔南民族师范学院学报 2009(03)
    • [29].基于Lucene与JSF的搜索引擎[J]. 福建电脑 2008(10)
    • [30].搜索引擎及其特色功能的比较与应用分析[J]. 现代情报 2011(06)

    标签:;  ;  

    基于多级Hash分词的全文搜索引擎的研究
    下载Doc文档

    猜你喜欢