面向动态文档集的大规模文本索引构建技术的研究

面向动态文档集的大规模文本索引构建技术的研究

论文摘要

在动态文档集环境中,索引的组织方式需要在检索效率和更新效率上进行调节与折衷。为了提高索引效率,索引的索引项数据用拉链方式分块存放,但会降低检索效率;反之亦然。索引模型的设计往往围绕索引和检索效率的平衡;传统索引模型中为了优先保证检索效率,将索引更新的实时性放在一个次要的位置,但文本检索系统应用环境的日益多样化,对检索的实时性提出了新的要求。本文研究大规模文本在线索引的构造方法,在动态文档集环境中,系统在构建倒排索引的同时提供检索服务,动态文档集中的文档更新可以及时在索引库中同步更新;通过索引维护策略的研究和对比,本文设计了一个优化的索引模型,在保证检索效率的前提下,使索引系统的实时性有了很大提高;提出了一种基于完全树的在线索引构建方法,利用完全树的特征控制索引合并过程,以减少索引合并代价,同时可以调节索引和检索的性能平衡,与以前方法相比,具有更高的性能和更好的规模可扩展性,并在理论和实验中验证了这种索引维护方法的高效性。以此索引模型实现的系统为平台,进行了索引与检索的效率平衡、检索性能预测的相关实验,研究索引和检索这两个指标在动态文档集中的平衡关系,对比了几种检索性能预测方法的效果和效率,通过对检索前查询预测机制的分析,为系统在检索模型上的扩展提供了实验分析和平台。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的背景和意义
  • 1.2 研究现状及成果
  • 1.3 发展趋势
  • 1.4 本文的主要研究内容及组织方式
  • 第2章 面向动态文档集的索引模型
  • 2.1 索引结构
  • 2.1.1 索引组织方法
  • 2.1.2 索引结构
  • 2.2 系统流程及框架
  • 2.3 关键问题分析
  • 2.4 本章小结
  • 第3章 在线索引的构建
  • 3.1 索引构建机制
  • 3.1.1 索引项的选择和内部表示
  • 3.1.2 数字索引项的处理
  • 3.1.3 分词效率及词典扩展性
  • 3.1.4 内存索引结构
  • 3.1.5 加锁机制
  • 3.1.6 压缩
  • 3.2 动态文档索引
  • 3.2.1 动态索引机制
  • 3.2.2 高效索引合并机制
  • 3.3 词典维护
  • 3.3.1 切分方法
  • 3.3.2 效率分析
  • 3.4 本章小结
  • 第4章 面向动态环境的实时检索
  • 4.1 检索模型
  • 4.2 分布式检索
  • 4.2.1 分布式检索的数据集划分
  • 4.2.2 分布式检索实现方式
  • 4.2.3 分布式检索性能分析
  • 4.3 查询性能分析
  • 4.3.1 查询性能预测
  • 4.3.2 查询性能预测方法分析
  • 4.4 本章小结
  • 第5章 索引与检索性能评价
  • 5.1 系统性能验证
  • 5.1.1 测试环境
  • 5.1.2 效率测试
  • 5.2 索引与检索性能平衡
  • 5.3 本章小结
  • 结论
  • 参考文献
  • 附录1 索引文件格式
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向动态文档集的大规模文本索引构建技术的研究
    下载Doc文档

    猜你喜欢