论文摘要
摘要:随着现代信息技术的不断发展,信息检索成为了互联网应用的核心,而全文检索是现代信息检索技术的核心中的核心。与普通检索方式不同,全文检索主要处理非结构化数据,通过索引构造器对非结构化的数据构造反向索引,并根据权重计算公式计算索引结果权重,分析文档相关性,建立文档和索引的相关度排名,最后达到准确检索目标文件的目的,因此全文检索技术也成为了现代搜索引擎技术的核心。虽然现有的商业搜索引擎可以满足一般的用户需求,但是针对企业用户以及有特殊需求的个人或研究机构,商业搜索引擎在保密性以及灵活性方面,还远远不能满足这些特定用户的需求。因此这些用户通常选择开源搜索引擎作为其解决方案,而Lucene就是其中较为优秀的解决方案之一。本文分析并研究了Lucene实现的原理及其组织结构,并且在保留Lucene架构的基础上,针对其不足之处进行了改进。首先,提供了Lucene对于多种文件格式支持,使其能够支持PDF, WORD, EXCEL, PPT, HTML等文件格式的检索。其次,对于Lucene只支持命令行的操作模式,对其改进,使其拥有更加直观的用户界面,提高了用户体验。最后,针对Lucene对于中文支持不足的缺陷,本文详细研究目前主流的中文分词算法和技术,并结合构造的基于Lucene的搜索引擎实例加以实现,并对各种中文分词器进行对比测试,分析优劣,使用户能够针对不同的应用环境,构造一个最适合的中文搜索引擎解决方案。
论文目录
相关论文文献
- [1].基于神经网络的中文分词技术研究[J]. 科学技术创新 2019(32)
- [2].中文分词技术研究[J]. 信息与电脑(理论版) 2020(10)
- [3].中文分词技术在搜索引擎中的探讨[J]. 科技信息 2009(35)
- [4].自然语言检索中的中文分词技术研究进展及应用[J]. 情报科学 2008(05)
- [5].百度中文分词技术浅析[J]. 河南图书馆学刊 2008(04)
- [6].计算机中文分词技术及其在数字化侦查中的应用研究[J]. 福建警察学院学报 2008(04)
- [7].基于回溯法的中文分词技术[J]. 电子技术与软件工程 2019(21)
- [8].面向未登录领域词切分的中文分词技术研究[J]. 信息系统工程 2013(11)
- [9].中文分词技术研究综述[J]. 数据分析与知识发现 2020(Z1)
- [10].中文分词技术在社会化媒体分析中的应用[J]. 中国教育技术装备 2014(16)
- [11].计算机中文分词技术的应用[J]. 呼伦贝尔学院学报 2010(03)
- [12].百度和谷歌的中文分词技术浅析[J]. 中国索引 2011(02)
- [13].应用中文分词技术的网络推广管理系统的设计与实现[J]. 电子商务 2019(09)
- [14].基于双向匹配法和特征选择算法的中文分词技术研究[J]. 昆明理工大学学报(自然科学版) 2011(01)
- [15].中文分词技术在搜索引擎中的应用研究[J]. 计算机与网络 2010(01)
- [16].中文分词技术的研究及在Nutch中的实现[J]. 科技信息 2011(19)
- [17].基于云计算的中文分词研究[J]. 河北科技大学学报 2012(03)
- [18].专家遴选系统设计与实现[J]. 计算机时代 2019(07)
- [19].中文分词技术的研究现状与困难[J]. 信息技术 2009(07)
- [20].基于分组hash与变长匹配的中文分词技术[J]. 计算机时代 2019(04)
- [21].基于MMSEG算法的中文分词技术的研究与设计[J]. 信息技术 2016(06)
- [22].中文分词技术综述[J]. 安阳师范学院学报 2010(02)
- [23].中文分词技术及其实现[J]. 软件导刊 2011(01)
- [24].考试系统基于中文分词技术的主观题评分尝试[J]. 科技信息 2009(28)
- [25].中文分词技术的研究[J]. 电脑开发与应用 2010(03)
- [26].NLP中文分词技术在桥梁报告数据处理中的应用[J]. 交通世界 2020(17)
- [27].基于Lucene的中文分词技术改进[J]. 咸阳师范学院学报 2012(02)
- [28].浅谈中文分词技术[J]. 科技资讯 2011(32)
- [29].面向军事领域的中文分词技术研究[J]. 计算机与现代化 2018(11)
- [30].基于专业词典的带词长的中文分词技术的研究[J]. 科技信息 2012(34)