论文摘要
本文主要围绕搜索引擎中核心技术之一的倒排索引技术进行展开,主要包括索引的组织结构,构建过程,压缩编码技术,动态更新技术,大规模数据存储技术等,其中以索引压缩、动态更新和大规模数据存储为研究重点,并在此基础上设计了一个用于实验环境的原型系统。索引压缩和编码可以有效节约存储空间,减少I/O流量,提高系统吞吐率。压缩的缺点是在对索引进行处理时需要解压缩,比如查询、更新,会占用一定的CPU时间。本文提出了一种混合编码策略,其有效地在压缩率、解压时间和动态性能之间达到权衡。索引动态更新是为了支持在现实检索环境下文本集频繁地进行变化的动态检索环境。本文对比了几种动态更新策略,对它们在索引构建和动态维护中通过实验进行了对比分析。在此基础上,针对实时性要求较高动态检索环境,对在线索引技术进行了探讨。在线索引是当前研究的热点和难点,其允许在动态更新的同时提供检索服务,以满足高实时性的要求。针对大规模数据的存储和处理问题,设计了一种分布式数据存储和处理策略,其既有效的满足了数据的分布式存储和数据处理的要求,又具有很高的容错性。
论文目录
摘要Abstract第一章 绪论1.1 研究背景1.2 全文索引关键技术1.2.1 索引的压缩和编码1.2.2 索引的动态更新1.2.3 大规模数据的存储和处理1.3 课题研究主要内容1.4 本文组织结构第二章 搜索引擎中索引组织2.1 全文索引技术2.1.1 全文索引概述2.1.2 全文索引模型2.2 倒排索引技术2.2.1 正向索引2.2.2 倒排索引2.2.3 索引的构建流程2.2.4 倒排表的组织2.3 Google 索引技术2.3.1 Google 索引的数据结构2.3.2 Google 索引过程2.3.3 Google 索引模块2.4 本章小结第三章 倒排索引压缩3.1 概述3.2 倒排索引压缩相关技术3.3 正整数变长编码3.3.1 字节对齐编码3.3.2 位对齐编码3.3.3 各种编码性能评价3.4 混合编码策略3.4.1 混合编码基本思想3.4.2 实验及性能分析3.5 本章小结第四章 倒排索引动态维护4.1 概述4.2 索引构建技术4.2.1 离线索引构建4.2.2 在线索引构建4.3 索引的动态维护策略4.3.1 In-Place 索引维护4.3.2 Merge-based 索引维护4.3.3 混合索引维护4.3.4 基于阈值的垃圾收集4.4 在线索引维护4.4.1 几何分块在线索引维护4.4.2 动态平衡树在线索引维护4.5 实验及性能分析4.6 本章小结第五章 系统设计与实现5.1 系统总体设计5.1.1 系统整体架构5.1.2 系统数据流程5.2 系统的详细设计5.2.1 主要模块设计5.2.2 索引结构设计5.2.3 索引文件设计5.2.4 系统性能测试5.3 分布式和扩展性考虑5.3.1 基于Map-Reduce 的分布索引5.3.2 分布式存储系统5.3.3 容错性能测试5.4 本章小结第六章 总结与展望6.1 本文总结6.2 本论文存在的不足6.3 下一步的工作致谢参考文献研究成果
相关论文文献
标签:搜索引擎论文; 倒排索引论文; 索引压缩论文; 动态更新论文;