Lucene与中文分词技术的研究及应用

Lucene与中文分词技术的研究及应用

论文摘要

摘要:随着现代信息技术的不断发展,信息检索成为了互联网应用的核心,而全文检索是现代信息检索技术的核心中的核心。与普通检索方式不同,全文检索主要处理非结构化数据,通过索引构造器对非结构化的数据构造反向索引,并根据权重计算公式计算索引结果权重,分析文档相关性,建立文档和索引的相关度排名,最后达到准确检索目标文件的目的,因此全文检索技术也成为了现代搜索引擎技术的核心。虽然现有的商业搜索引擎可以满足一般的用户需求,但是针对企业用户以及有特殊需求的个人或研究机构,商业搜索引擎在保密性以及灵活性方面,还远远不能满足这些特定用户的需求。因此这些用户通常选择开源搜索引擎作为其解决方案,而Lucene就是其中较为优秀的解决方案之一。本文分析并研究了Lucene实现的原理及其组织结构,并且在保留Lucene架构的基础上,针对其不足之处进行了改进。首先,提供了Lucene对于多种文件格式支持,使其能够支持PDF, WORD, EXCEL, PPT, HTML等文件格式的检索。其次,对于Lucene只支持命令行的操作模式,对其改进,使其拥有更加直观的用户界面,提高了用户体验。最后,针对Lucene对于中文支持不足的缺陷,本文详细研究目前主流的中文分词算法和技术,并结合构造的基于Lucene的搜索引擎实例加以实现,并对各种中文分词器进行对比测试,分析优劣,使用户能够针对不同的应用环境,构造一个最适合的中文搜索引擎解决方案。

论文目录

  • 致谢
  • 中文摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 引言
  • 1.1.1 研究的背景及意义
  • 1.1.2 搜索引擎研究的现状
  • 1.2 相关技术概述
  • 1.2.1 Lucene概述
  • 1.2.2 Struts2概述
  • 1.3 主要工作及论文结构
  • 1.3.1 主要工作
  • 1.3.2 论文结构
  • 1.4 本章小结
  • 2 Lucene的全面分析
  • 2.1 Lucene的结构分析
  • 2.1.1 Lucene的总体架构
  • 2.1.2 Lucene的包结构
  • 2.2 Lucene的索引技术
  • 2.2.1 索引操作的类结构
  • 2.2.2 索引的组织结构
  • 2.2.3 索引的数据结构
  • 2.2.4 索引的建立模式
  • 2.2.5 索引的优化方法
  • 2.2.6 索引的存储方式
  • 2.3 Lucene的检索技术
  • 2.3.1 Lucene的检索类结构
  • 2.3.2 Lucene的检索语法
  • 2.3.3 Lucene的检索过程
  • 2.4 本章小结
  • 3 中文分词的相关分析
  • 3.1 中文分词的研究现状
  • 3.2 中文分词算法的比较和分析
  • 3.2.1 基于字符串匹配的分词方法
  • 3.2.2 基于理解的分词方法
  • 3.2.3 基于统计的分词方法
  • 3.2.4 基于语义的分词方法
  • 3.3 本章小结
  • 4 全文搜索引擎实现分析与设计
  • 4.1 全文搜索引擎系统的需求分析
  • 4.2 全文搜索引擎系统的设计
  • 4.2.1 系统设计目标
  • 4.2.2 系统总体设计
  • 4.2.3 系统模块设计
  • 4.3 本章小结
  • 5 全文搜索引擎的实现
  • 5.1 信息采集模块的实现
  • 5.1.1 信息采集模块的总体结构
  • 5.1.2 网页抓取模块的实现
  • 5.1.3 网页分析模块的实现
  • 5.2 文档解析模块的实现
  • 5.2.1 文档解析模块的详细设计
  • 5.2.2 PDF文件格式的解析
  • 5.2.3 OFFICE文件格式的解析
  • 5.2.4 HTML文件格式的解析
  • 5.3 中文分词模块的实现
  • 5.4 索引模块的实现
  • 5.4.1 索引的建立
  • 5.4.2 索引的删除
  • 5.4.3 索引的优化处理
  • 5.5 搜索模块的实现
  • 5.5.1 搜索的建立
  • 5.5.2 搜索结果的排序
  • 5.5.3 搜索的优化处理
  • 5.6 用户模块的实现
  • 5.7 本章小结
  • 6 中文分词性能分析
  • 6.1 测试环境和测评标准
  • 6.1.1 测试环境
  • 6.1.2 测试数据
  • 6.1.3 测评标准
  • 6.2 测试结果以及结果分析
  • 6.2.1 测试结果
  • 6.2.2 结果分析
  • 6.3 本章小结
  • 7 结论
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 相关论文文献

    • [1].基于神经网络的中文分词技术研究[J]. 科学技术创新 2019(32)
    • [2].中文分词技术研究[J]. 信息与电脑(理论版) 2020(10)
    • [3].中文分词技术在搜索引擎中的探讨[J]. 科技信息 2009(35)
    • [4].自然语言检索中的中文分词技术研究进展及应用[J]. 情报科学 2008(05)
    • [5].百度中文分词技术浅析[J]. 河南图书馆学刊 2008(04)
    • [6].计算机中文分词技术及其在数字化侦查中的应用研究[J]. 福建警察学院学报 2008(04)
    • [7].基于回溯法的中文分词技术[J]. 电子技术与软件工程 2019(21)
    • [8].面向未登录领域词切分的中文分词技术研究[J]. 信息系统工程 2013(11)
    • [9].中文分词技术研究综述[J]. 数据分析与知识发现 2020(Z1)
    • [10].中文分词技术在社会化媒体分析中的应用[J]. 中国教育技术装备 2014(16)
    • [11].计算机中文分词技术的应用[J]. 呼伦贝尔学院学报 2010(03)
    • [12].百度和谷歌的中文分词技术浅析[J]. 中国索引 2011(02)
    • [13].应用中文分词技术的网络推广管理系统的设计与实现[J]. 电子商务 2019(09)
    • [14].基于双向匹配法和特征选择算法的中文分词技术研究[J]. 昆明理工大学学报(自然科学版) 2011(01)
    • [15].中文分词技术在搜索引擎中的应用研究[J]. 计算机与网络 2010(01)
    • [16].中文分词技术的研究及在Nutch中的实现[J]. 科技信息 2011(19)
    • [17].基于云计算的中文分词研究[J]. 河北科技大学学报 2012(03)
    • [18].专家遴选系统设计与实现[J]. 计算机时代 2019(07)
    • [19].中文分词技术的研究现状与困难[J]. 信息技术 2009(07)
    • [20].基于分组hash与变长匹配的中文分词技术[J]. 计算机时代 2019(04)
    • [21].基于MMSEG算法的中文分词技术的研究与设计[J]. 信息技术 2016(06)
    • [22].中文分词技术综述[J]. 安阳师范学院学报 2010(02)
    • [23].中文分词技术及其实现[J]. 软件导刊 2011(01)
    • [24].考试系统基于中文分词技术的主观题评分尝试[J]. 科技信息 2009(28)
    • [25].中文分词技术的研究[J]. 电脑开发与应用 2010(03)
    • [26].NLP中文分词技术在桥梁报告数据处理中的应用[J]. 交通世界 2020(17)
    • [27].基于Lucene的中文分词技术改进[J]. 咸阳师范学院学报 2012(02)
    • [28].浅谈中文分词技术[J]. 科技资讯 2011(32)
    • [29].面向军事领域的中文分词技术研究[J]. 计算机与现代化 2018(11)
    • [30].基于专业词典的带词长的中文分词技术的研究[J]. 科技信息 2012(34)

    标签:;  ;  ;  

    Lucene与中文分词技术的研究及应用
    下载Doc文档

    猜你喜欢