论文摘要
中文分词作为现代搜索引擎技术的重要基础,一直以来是人们研究的热点和难点。Lucene是一个成熟、开源的软件项目,是一个高性能的信息检索和查询工具,通过对Lucene源代码的分析和编程实验,让我们领略到了Lucene的精髓。由于其提供了一套简单却十分强大的核心API,使得我们可以快速得将它集成到我们自己应用程序中。但是,Lucene的核心包和扩展包对中文分词采取类似英文的机械式切分方法。然而由于中英文之间在形式上存在着巨大的差异,这种切分方法的分词效果是非常低效的。本文在通过对Lucene分词的结构的分析,设计出了一种基于Hash的Lucene的高效机械分词方法。目前信息处理用的词典机制主要有整词二分、TRIE索引树、逐字二分等几种方法,其中TRIE索引树和逐字二分机制查询效率较高。这几种词典机制都是以排序的线性表来提高查询效率,数据结构比较复杂且查询速度较慢。本文主要工作是分析了几种常用词典构造方法的优缺点,针对分词中特定的查询条件,设计并实现了基于Hash的分词词典,同时分析了基于Hash的分词词典的性能。本文在此研究基础上开发出了个人桌面搜索引擎系统,索引和搜索部分利用Lucene引擎架构,实现了比Lucene自带的中文分词更有效的中文分词。文章最后在系统设计和实现的基础上,对中文分词进行了速度和准确率的测试,并在此基础上提出了今后努力的方向。
论文目录
相关论文文献
- [1].全文搜索引擎搭建解析[J]. 现代计算机 2013(25)
- [2].全文搜索引擎快速搭建的设计与实现[J]. 计算机与现代化 2012(11)
- [3].中小型校园网全文搜索引擎的研究与实现[J]. 电子世界 2012(19)
- [4].全文搜索引擎在煤矿运维系统中的应用[J]. 工矿自动化 2019(03)
- [5].维、哈、柯多文种全文搜索引擎的设计与实现[J]. 计算机应用与软件 2009(06)
- [6].基于WEB的全文搜索引擎系统设计与实现[J]. 安徽科技学院学报 2014(06)
- [7].基于Google API的全文搜索引擎系统[J]. 读与写(教育教学刊) 2018(04)
- [8].基于Lucene的全文搜索引擎的研究与实现[J]. 湖北广播电视大学学报 2010(05)
- [9].基于Arachnode.net的全文搜索引擎搭建[J]. 黑龙江八一农垦大学学报 2014(01)
- [10].全文搜索引擎的设计与实现[J]. 科技致富向导 2013(11)
- [11].基于Lucene的全文搜索引擎的设计与实现[J]. 安徽科技 2012(12)
- [12].基于PyQt的全文搜索引擎平台开发[J]. 软件导刊 2018(09)
- [13].基于Solr和Mahout在线资讯自动分类与全文搜索引擎的实现[J]. 中国传媒科技 2013(17)
- [14].全文搜索引擎e_Guide的设计与实现[J]. 电子商务 2013(11)
- [15].全文搜索引擎技术[J]. 郑州铁路职业技术学院学报 2008(03)
- [16].基于搜索引擎分类及特点的分析[J]. 中国新技术新产品 2011(11)
- [17].维、哈、柯全文搜索引擎索引器的设计与实现[J]. 情报杂志 2008(10)
- [18].森林碳汇文献全文搜索引擎的设计与实现[J]. 科技资讯 2008(33)
- [19].基于Nutch的XML网站全文搜索引擎实现[J]. 计算机工程 2008(15)
- [20].基于大数据技术的收费软件日志汇聚平台方案[J]. 中国交通信息化 2018(S1)
- [21].基于Lucene的中文分词全文搜索引擎设计与实现[J]. 电脑知识与技术 2015(13)
- [22].网站全文搜索引擎技术的初步研究及应用[J]. 科技信息 2009(11)
- [23].维、哈、柯全文搜索引擎检索器的关键技术[J]. 计算机工程 2008(21)
- [24].Compass在SSH架构项目中的应用[J]. 金融科技时代 2012(06)
- [25].基于Lucene的全文搜索引擎设计与实现[J]. 福建电脑 2009(05)
- [26].基于Lucene的多种排序方式的实现[J]. 电脑知识与技术 2015(17)
- [27].因特网信息搜索策略优化的教学案例分析[J]. 中小学电教(下) 2010(11)
- [28].基于Lucene的全文搜索引擎研究与应用[J]. 黔南民族师范学院学报 2009(03)
- [29].基于Lucene与JSF的搜索引擎[J]. 福建电脑 2008(10)
- [30].搜索引擎及其特色功能的比较与应用分析[J]. 现代情报 2011(06)