面向中文的数据库全文检索及其相关安全技术研究

面向中文的数据库全文检索及其相关安全技术研究

论文摘要

目前,全文检索(Full-Text Retrieval)技术是国内外学者研究的热点。它以文本信息作为检索对象,允许用户直接获取文中的有关章节、段落或句子,是从海量信息中精确定位所需信息的最有效手段。随着信息量的急剧增加,为了在浩如烟海的文字信息中快速找到所需的相关信息,很多应用系统都通过全文检索技术来提高系统检索效率。本课题旨在对SECBase数据库添加全文检索功能,在解决该数据库目前不支持长字段检索的同时,全面提高检索效率。本文在对全文检索系统进行深入分析研究的基础上,提出了SECBase数据库外挂式全文检索引擎的体系结构,分析了系统内各模块的功能和相互之间的联系。全文检索的核心技术是全文索引,全文索引主要采用倒排表的索引方式。目前,英文的全文索引技术比较成熟,因为英文的词与词之间有空格间隔,语言分析比较容易。中文的构成比英文要复杂得多,字与字之间没有间隔,且中文字符数量较大,使一些索引模型不太适用于中文。本文在倒排索引的基础上,提出了一个基于词的中文全文索引模型B+-Lists。B+-Lists模型充分考虑了索引操作的特点和频率,把全文索引分为两级索引来存储和操作。第一级索引为索引词的索引,采用B+树的数据结构;第二级索引是与索引词相关联的位置信息,采用广义表(Lists)结构。本文提出了全文索引库的安全问题。在对安全隐患进行分析的基础上,提出了一个具体的解决方案——对全文索引库进行存储加密。本文设计了专门的加解密模块来实施全文索引的存储加密,并构建了该模块的加密机制,对全文索引的安全技术进行了初步的探讨。在对全文索引进行深入的理论分析基础上,本文对SECBase数据库全文检索引擎系统的索引功能进行了实现。将全文索引的工作原理抽象为四个处理过程,详细阐述了每个过程的步骤。完成了文本信息(这里指数据库中存储的长字段信息)预处理过程和建立全文索引过程,并对索引操作采取了一些优化措施。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 选题背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文研究内容和结构安排
  • 第二章 全文检索系统的关键技术
  • 2.1 基本概念
  • 2.2 检索技术
  • 2.3 索引技术
  • 2.3.1 全文索引技术
  • 2.3.2 中文全文索引技术
  • 2.3.3 全文索引的安全技术
  • 第三章 SECBase数据库全文检索系统体系结构研究
  • 3.1 开源全文检索引擎Lucene的系统结构
  • 3.2 系统功能分析
  • 3.3 系统的体系结构
  • 3.4 系统内各模块的功能
  • 3.5 本章小结
  • 第四章 中文全文索引的研究
  • 4.1 全文索引与传统数据库索引的区别
  • 4.2 倒排索引的基本概念
  • 4.3 中文全文索引模型面临的问题
  • 4.4 索引模型的动态需求分析
  • 4.4.1 查询需求
  • 4.4.2 更新需求
  • +-Lists中文索引模型的建立'>4.5 B+-Lists中文索引模型的建立
  • +树结构'>4.5.1 一级索引采用B+树结构
  • 4.5.2 二级索引采用广义表结构
  • +-Lists索引模型的动态操作算法描述'>4.6 B+-Lists索引模型的动态操作算法描述
  • 4.6.1 索引查询
  • 4.6.2 索引更新
  • +-Lists索引模型的优势与不足'>4.7 B+-Lists索引模型的优势与不足
  • 4.8 本章小结
  • 第五章 全文索引库的安全技术
  • 5.1 安全需求及解决方案
  • 5.2 存储安全技术
  • 5.3 全文索引库的存储加密机制
  • 5.4 本章小结
  • 第六章 全文索引的实现
  • 6.1 索引处理过程分析
  • 6.1.1 建立全文索引
  • 6.1.2 索引的增加/修改
  • 6.1.3 索引删除
  • 6.1.4 全文检索
  • 6.2 索引实现
  • 6.3 索引操作的优化
  • 6.3.1 写索引的优化
  • 6.3.2 读索引的优化
  • 6.3.3 存储索引的优化
  • 6.4 运行结果与性能分析
  • 6.5 本章小结
  • 第七章 总结与展望
  • 7.1 本文工作总结
  • 7.2 未来工作展望
  • 参考文献
  • 附录
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向中文的数据库全文检索及其相关安全技术研究
    下载Doc文档

    猜你喜欢