基于全文数据库的全文检索模型研究

基于全文数据库的全文检索模型研究

论文摘要

全文检索技术已经在企业信息门户等领域有了广泛的应用。然而,目前大部分全文检索系统是面向静态数据库或半动态数据库的,即信息一旦录入就不能更新,或者只能在预先设置的时间段内统一更新。这显然不能满足一些实时性要求很高的应用,如报社新闻的查询等。因此,全文检索的动态性是全文检索技术发展的一个必然趋势。全文检索的动态性取决于全文索引创建和更新的动态性。通过对传统模型和新兴模型进行分析,发现互关联后继树模型具有出色的时间效率和空间效率,但动态更新效率还不是特别理想。为了提高其动态性能,从存储结构的优化、动态更新索引结构的设计、分布式并行检索策略的使用三方面进行研究。在优化存储结构方面,将索引文件分块处理,详细讨论了块、块中记录及文档的算法设计,实验表明:该方案提高了索引更新的灵活性。在设计动态更新索引结构方面,索引由主索引、附加索引和删除文件列表组成,实验证明:独特的结构很好地解决了索引的更新问题。在分布式并行检索策略的使用方面,给出具体的分布式存储建库和并行处理方法,在一定程度上避免了互关联后继树模型动态性能不理想的弱点。最后,提出一个整合了以上各种方案的基于互关联后继树模型的全文检索系统框架,该框架具有良好的综合性能。

论文目录

  • 中文摘要
  • 英文摘要
  • 第1章 前言
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 主要内容
  • 1.4 本文结构
  • 第2章 全文检索模型综述
  • 2.1 全文数据库
  • 2.2 全文检索模型
  • 2.3 全文索引优劣的评价标准
  • 2.4 几种全文检索模型及其比较
  • 第3章 互关联后继树模型的原理及操作算法
  • 3.1 模型简介
  • 3.2 相关算法
  • 3.3 多文本互关联后继树模型
  • 3.4 性能分析与小结
  • 第4章 互关联后继树模型存储结构的优化
  • 4.1 互关联后继树的存储结构
  • 4.2 优化思想——索引文件分块处理
  • 4.2.1 块的大小的确定
  • 4.2.2 基于分块结构的索引创建过程
  • 4.3 块的结构与算法的设计
  • 4.3.1 索引块的数据结构
  • 4.3.2 索引块的操作算法
  • 4.4 块中记录的结构与算法设计
  • 4.5 文档操作算法设计
  • 4.5.1 文档的添加算法
  • 4.5.2 文档删除算法
  • 4.5.3 文档的更新
  • 4.6 性能分析
  • 4.7 小结
  • 第5章 动态更新索引结构的设计
  • 5.1 索引模块的体系结构和数据结构
  • 5.2 索引的建立、查询和更新
  • 5.2.1 索引的初始建立
  • 5.2.2 索引的查询
  • 5.2.3 索引的更新
  • 5.2.4 主索引和附加索引的合并算法
  • 5.3 半动态全文索引和实时动态全文索引
  • 5.4 性能分析
  • 5.5 小结
  • 第6章 基于互关联后继树的全文检索系统框架
  • 6.1 系统功能
  • 6.2 分布式并行检索
  • 6.2.1 分布方法
  • 6.2.2 并行处理
  • 6.2.3 分布式并行检索策略
  • 6.3 系统框架结构
  • 第7章 结论
  • 7.1 总结
  • 7.2 展望
  • 参考文献
  • 致谢
  • 个人简历、在学期间的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于全文数据库的全文检索模型研究
    下载Doc文档

    猜你喜欢