论文摘要
目前,全文检索(Full-Text Retrieval)技术是国内外学者研究的热点。它以文本信息作为检索对象,允许用户直接获取文中的有关章节、段落或句子,是从海量信息中精确定位所需信息的最有效手段。随着信息量的急剧增加,为了在浩如烟海的文字信息中快速找到所需的相关信息,很多应用系统都通过全文检索技术来提高系统检索效率。本课题旨在对SECBase数据库添加全文检索功能,在解决该数据库目前不支持长字段检索的同时,全面提高检索效率。本文在对全文检索系统进行深入分析研究的基础上,提出了SECBase数据库外挂式全文检索引擎的体系结构,分析了系统内各模块的功能和相互之间的联系。全文检索的核心技术是全文索引,全文索引主要采用倒排表的索引方式。目前,英文的全文索引技术比较成熟,因为英文的词与词之间有空格间隔,语言分析比较容易。中文的构成比英文要复杂得多,字与字之间没有间隔,且中文字符数量较大,使一些索引模型不太适用于中文。本文在倒排索引的基础上,提出了一个基于词的中文全文索引模型B+-Lists。B+-Lists模型充分考虑了索引操作的特点和频率,把全文索引分为两级索引来存储和操作。第一级索引为索引词的索引,采用B+树的数据结构;第二级索引是与索引词相关联的位置信息,采用广义表(Lists)结构。本文提出了全文索引库的安全问题。在对安全隐患进行分析的基础上,提出了一个具体的解决方案——对全文索引库进行存储加密。本文设计了专门的加解密模块来实施全文索引的存储加密,并构建了该模块的加密机制,对全文索引的安全技术进行了初步的探讨。在对全文索引进行深入的理论分析基础上,本文对SECBase数据库全文检索引擎系统的索引功能进行了实现。将全文索引的工作原理抽象为四个处理过程,详细阐述了每个过程的步骤。完成了文本信息(这里指数据库中存储的长字段信息)预处理过程和建立全文索引过程,并对索引操作采取了一些优化措施。
论文目录
摘要Abstract第一章 绪论1.1 选题背景及意义1.2 国内外研究现状1.3 本文研究内容和结构安排第二章 全文检索系统的关键技术2.1 基本概念2.2 检索技术2.3 索引技术2.3.1 全文索引技术2.3.2 中文全文索引技术2.3.3 全文索引的安全技术第三章 SECBase数据库全文检索系统体系结构研究3.1 开源全文检索引擎Lucene的系统结构3.2 系统功能分析3.3 系统的体系结构3.4 系统内各模块的功能3.5 本章小结第四章 中文全文索引的研究4.1 全文索引与传统数据库索引的区别4.2 倒排索引的基本概念4.3 中文全文索引模型面临的问题4.4 索引模型的动态需求分析4.4.1 查询需求4.4.2 更新需求+-Lists中文索引模型的建立'>4.5 B+-Lists中文索引模型的建立+树结构'>4.5.1 一级索引采用B+树结构4.5.2 二级索引采用广义表结构+-Lists索引模型的动态操作算法描述'>4.6 B+-Lists索引模型的动态操作算法描述4.6.1 索引查询4.6.2 索引更新+-Lists索引模型的优势与不足'>4.7 B+-Lists索引模型的优势与不足4.8 本章小结第五章 全文索引库的安全技术5.1 安全需求及解决方案5.2 存储安全技术5.3 全文索引库的存储加密机制5.4 本章小结第六章 全文索引的实现6.1 索引处理过程分析6.1.1 建立全文索引6.1.2 索引的增加/修改6.1.3 索引删除6.1.4 全文检索6.2 索引实现6.3 索引操作的优化6.3.1 写索引的优化6.3.2 读索引的优化6.3.3 存储索引的优化6.4 运行结果与性能分析6.5 本章小结第七章 总结与展望7.1 本文工作总结7.2 未来工作展望参考文献附录作者简历 攻读硕士学位期间完成的主要工作致谢
相关论文文献
标签:全文检索论文; 全文索引论文; 倒排索引论文; 存储加密论文;