论文题目: 大规模中文文本检索中的高性能索引研究
论文类型: 硕士论文
论文专业: 计算机应用技术
作者: 米嘉
导师: 王斌
关键词: 倒排文件,索引,流水线,分词,双数组树
文献来源: 中国科学院研究生院(计算技术研究所)
发表年度: 2005
论文摘要: 随着互联网上信息的不断增长和日益更新,检索系统,特别是中文文本检索系统,正在受到人们越来越多的关注。索引是检索系统必不可少的组成部分,是检索系统提供快速查询服务的关键。倒排文件是大规模检索系统最常用的索引形式。然而,通常情况下,索引的构建,即倒排文件的生成,是一个非常耗时的过程。为了适应大规模的文本检索任务,有必要研究加快构建索引的手段。通过对索引过程的各个阶段进行分析,本文指出,通常的索引算法效率不高的主要原因有二:1)CPU和I/O部件相互等待,使得系统资源的利用率不高;2)文档分析阶段是整个索引过程中的瓶颈,特别的,对中文文本而言,分词是主要的开销之一。针对第一个问题,本文在串行的索引流程中引入流水线结构,提高了资源部件的并行程度,进而缩短倒排文件的生成时间;在此基础上,文中还比较了流水线结构在不同参数下的性能差异。针对第二个问题,可以采用优化的词典结构,以加快中文的分词速度,从而达到减少分析阶段时间开销的目的;在比较了几种常见的词典结构之后,文中指出,基于双数组Trie树的词典结构是加快索引速度的有效手段。实验表明,综合使用以上两种方法,可以使索引的速度提高25%。具体的,我们对中文TXT文件的最快索引速度可达2.5M字节/秒。
论文目录:
声 明
论文版权使用授权书
摘要
ABSTRACT
图目录
表目录
引言
1.1 索引的结构
1.2 本文的主题
1.3 内容的安排
第二章 索引流程简介
2.1 索引算法简介
2.2 基于排序的算法
2.2.1 文档分析
2.2.2 全局词典
2.2.3 索引合并
2.3 本章小结
第三章 索引开销分析
3.1 索引流程的实现
3.2 索引的性能测试
3.2.1 资源的利用率
3.2.2 阶段开销分析
3.3 本章小结
第四章 并行索引研究
4.1 流水线技术
4.2 流水线性能分析
4.3 流水线性能测试
4.3.1 资源的利用率
4.3.2 串/并行的对比
4.3.3 其它对比实验
4.4 本章小结
第五章 索引中的分词
5.1 分词技术简介
5.2 词典实现机制
5.3 词典性能比较
5.4 本章小结
第六章 检索系统简介
6.1 系统的结构
6.2 系统的特色
第七章 总结与展望
7.1 总结
7.2 展望
参考文献
致谢
作者简历
发布时间: 2006-12-26
参考文献
- [1].基于实时Twitter流的文本检索研究[D]. 熊俊杰.上海师范大学2018
- [2].面向医疗文本检索的查询重构技术研究与实现[D]. 王月瑶.华东师范大学2018
- [3].基于文本检索优化的移动端火电厂巡检辅助系统的实现[D]. 杨李.东北电力大学2018
- [4].微博的短文本检索查询扩展与排序方法研究[D]. 韩红云.大连海事大学2017
- [5].基于主题分析的文本检索方法研究[D]. 罗贤亮.华中师范大学2015
- [6].基于语言模型的微博文本检索方法[D]. 李赟.哈尔滨工业大学2012
- [7].基于Hadoop的分布式Web文本检索系统的研究与开发[D]. 麦迪乃·热合木江.新疆大学2013
- [8].基于关键词查询扩展的文本检索技术的研究与实现[D]. 王东.安徽工业大学2014
- [9].微博短文本检索关键技术研究[D]. 李绪维.哈尔滨工业大学2013
- [10].面向农村医疗的分布式文本检索关键技术研究[D]. 高学斌.北京邮电大学2014
相关论文
- [1].面向大规模信息检索的中文分词技术研究[D]. 王思力.中国科学院研究生院(计算技术研究所)2006
- [2].中文信息检索索引单元的研究[D]. 韩咏.哈尔滨理工大学2006
- [3].文本挖掘及其在文本检索中的应用[D]. 郑毅.中国科学院研究生院(计算技术研究所)2002
- [4].分布式WEB文档全文索引关键技术研究[D]. 张玲玲.哈尔滨工业大学2006
- [5].中文全文检索系统中索引的研究[D]. 赵会杰.北京交通大学2007
- [6].中文信息检索中相关算法的研究[D]. 薛静.辽宁科技大学2007
- [7].搜索引擎设计分析与查询改进[D]. 王星辉.电子科技大学2007
- [8].中文索引策略的研究[D]. 韩中元.哈尔滨工程大学2007
- [9].基于概念的中文文本检索研究[D]. 张映海.重庆大学2007
- [10].基于倒排索引的全文检索技术研究[D]. 刘兴宇.华中科技大学2004