论文摘要
全文检索技术已经在企业信息门户等领域有了广泛的应用。然而,目前大部分全文检索系统是面向静态数据库或半动态数据库的,即信息一旦录入就不能更新,或者只能在预先设置的时间段内统一更新。这显然不能满足一些实时性要求很高的应用,如报社新闻的查询等。因此,全文检索的动态性是全文检索技术发展的一个必然趋势。全文检索的动态性取决于全文索引创建和更新的动态性。通过对传统模型和新兴模型进行分析,发现互关联后继树模型具有出色的时间效率和空间效率,但动态更新效率还不是特别理想。为了提高其动态性能,从存储结构的优化、动态更新索引结构的设计、分布式并行检索策略的使用三方面进行研究。在优化存储结构方面,将索引文件分块处理,详细讨论了块、块中记录及文档的算法设计,实验表明:该方案提高了索引更新的灵活性。在设计动态更新索引结构方面,索引由主索引、附加索引和删除文件列表组成,实验证明:独特的结构很好地解决了索引的更新问题。在分布式并行检索策略的使用方面,给出具体的分布式存储建库和并行处理方法,在一定程度上避免了互关联后继树模型动态性能不理想的弱点。最后,提出一个整合了以上各种方案的基于互关联后继树模型的全文检索系统框架,该框架具有良好的综合性能。
论文目录
中文摘要英文摘要第1章 前言1.1 研究背景1.2 研究现状1.3 主要内容1.4 本文结构第2章 全文检索模型综述2.1 全文数据库2.2 全文检索模型2.3 全文索引优劣的评价标准2.4 几种全文检索模型及其比较第3章 互关联后继树模型的原理及操作算法3.1 模型简介3.2 相关算法3.3 多文本互关联后继树模型3.4 性能分析与小结第4章 互关联后继树模型存储结构的优化4.1 互关联后继树的存储结构4.2 优化思想——索引文件分块处理4.2.1 块的大小的确定4.2.2 基于分块结构的索引创建过程4.3 块的结构与算法的设计4.3.1 索引块的数据结构4.3.2 索引块的操作算法4.4 块中记录的结构与算法设计4.5 文档操作算法设计4.5.1 文档的添加算法4.5.2 文档删除算法4.5.3 文档的更新4.6 性能分析4.7 小结第5章 动态更新索引结构的设计5.1 索引模块的体系结构和数据结构5.2 索引的建立、查询和更新5.2.1 索引的初始建立5.2.2 索引的查询5.2.3 索引的更新5.2.4 主索引和附加索引的合并算法5.3 半动态全文索引和实时动态全文索引5.4 性能分析5.5 小结第6章 基于互关联后继树的全文检索系统框架6.1 系统功能6.2 分布式并行检索6.2.1 分布方法6.2.2 并行处理6.2.3 分布式并行检索策略6.3 系统框架结构第7章 结论7.1 总结7.2 展望参考文献致谢个人简历、在学期间的研究成果
相关论文文献
标签:全文数据库论文; 全文检索论文; 互关联后继树论文; 动态索引论文;