论文摘要
在动态文档集环境中,索引的组织方式需要在检索效率和更新效率上进行调节与折衷。为了提高索引效率,索引的索引项数据用拉链方式分块存放,但会降低检索效率;反之亦然。索引模型的设计往往围绕索引和检索效率的平衡;传统索引模型中为了优先保证检索效率,将索引更新的实时性放在一个次要的位置,但文本检索系统应用环境的日益多样化,对检索的实时性提出了新的要求。本文研究大规模文本在线索引的构造方法,在动态文档集环境中,系统在构建倒排索引的同时提供检索服务,动态文档集中的文档更新可以及时在索引库中同步更新;通过索引维护策略的研究和对比,本文设计了一个优化的索引模型,在保证检索效率的前提下,使索引系统的实时性有了很大提高;提出了一种基于完全树的在线索引构建方法,利用完全树的特征控制索引合并过程,以减少索引合并代价,同时可以调节索引和检索的性能平衡,与以前方法相比,具有更高的性能和更好的规模可扩展性,并在理论和实验中验证了这种索引维护方法的高效性。以此索引模型实现的系统为平台,进行了索引与检索的效率平衡、检索性能预测的相关实验,研究索引和检索这两个指标在动态文档集中的平衡关系,对比了几种检索性能预测方法的效果和效率,通过对检索前查询预测机制的分析,为系统在检索模型上的扩展提供了实验分析和平台。
论文目录
摘要Abstract第1章 绪论1.1 课题研究的背景和意义1.2 研究现状及成果1.3 发展趋势1.4 本文的主要研究内容及组织方式第2章 面向动态文档集的索引模型2.1 索引结构2.1.1 索引组织方法2.1.2 索引结构2.2 系统流程及框架2.3 关键问题分析2.4 本章小结第3章 在线索引的构建3.1 索引构建机制3.1.1 索引项的选择和内部表示3.1.2 数字索引项的处理3.1.3 分词效率及词典扩展性3.1.4 内存索引结构3.1.5 加锁机制3.1.6 压缩3.2 动态文档索引3.2.1 动态索引机制3.2.2 高效索引合并机制3.3 词典维护3.3.1 切分方法3.3.2 效率分析3.4 本章小结第4章 面向动态环境的实时检索4.1 检索模型4.2 分布式检索4.2.1 分布式检索的数据集划分4.2.2 分布式检索实现方式4.2.3 分布式检索性能分析4.3 查询性能分析4.3.1 查询性能预测4.3.2 查询性能预测方法分析4.4 本章小结第5章 索引与检索性能评价5.1 系统性能验证5.1.1 测试环境5.1.2 效率测试5.2 索引与检索性能平衡5.3 本章小结结论参考文献附录1 索引文件格式致谢
相关论文文献
标签:动态文档集论文; 索引构建论文; 索引合并论文; 在线索引论文;