在动态文档集环境中,索引的组织方式需要在检索效率和更新效率上进行调节与折衷。为了提高索引效率,索引的索引项数据用拉链方式分块存放,但会降低检索效率;反之亦然。索引模型的设计往往围绕索引和检索效率的平衡;传统索引模型中为了优先保证检索效率,将索引更新的实时性放在一个次要的位置,但文本检索系统应用环境的日益多样化,对检索的实时性提出了新的要求。本文研究大规模文本在线索引的构造方法,在动态文档集环境中,系统在构建倒排索引的同时提供检索服务,动态文档集中的文档更新可以及时在索引库中同步更新;通过索引维护策略的研究和对比,本文设计了一个优化的索引模型,在保证检索效率的前提下,使索引系统的实时性有了很大提高;提出了一种基于完全树的在线索引构建方法,利用完全树的特征控制索引合并过程,以减少索引合并代价,同时可以调节索引和检索的性能平衡,与以前方法相比,具有更高的性能和更好的规模可扩展性,并在理论和实验中验证了这种索引维护方法的高效性。以此索引模型实现的系统为平台,进行了索引与检索的效率平衡、检索性能预测的相关实验,研究索引和检索这两个指标在动态文档集中的平衡关系,对比了几种检索性能预测方法的效果和效率,通过对检索前查询预测机制的分析,为系统在检索模型上的扩展提供了实验分析和平台。
本文来源: https://www.lw50.cn/article/d665c7420acdefd37193f1f7.html