基于语义信息的面向数据库的Top-k关键字查询技术

基于语义信息的面向数据库的Top-k关键字查询技术

论文摘要

越来越多的信息被存储在关系数据库中,面向关系数据库的关键字查询的需求也随之增多。尽管许多数据库管理系统支持全文本信息搜索,但是,在这些系统中,用户必须预先知道所要查询的关系数据库的模式结构,并且通过某种结构化的查询语言查询数据库。Web关键字搜索的巨大成功,使面向关系数据库的关键字查询成为一个崭新的研究领域。然而,面向关系数据库的关键字查询面临着三个挑战:(1)查询结果是由分散在不同关系表中的元组连接而成。(2)计算结果的相关度时,必须计算分散在各个关系表中的关键字与查询关键字之间的相关度。(3)与文本数据库相比,关系数据库的结构更复杂。因此,传统信息搜索领域的评分函数以及搜索算法不能直接应用到数据库关键字搜索中。本文通过研究元组的语义特性以及元组间的语义关系,提出一种新的评分函数。该评分函数不仅涵盖了当前的评分思想,并且用一些新的指标来衡量查询结果与查询关键字之间的相关性,从而更贴切和准确地衡量查询结果与查询关键字间的相关度。基于新的评分函数,主要提出四种Top-k搜索算法。分别为基本算法、EBA(Early-stopping Block Algorithm)算法、AEBA (Advanced Early-stopping Block Algorithm)算法、GAEBA算法(Global Advanced Early-stopping Block Algorithm)。后三种算法以数据块为处理单位,避免频繁访问数据库,因而提高搜索效率。AEBA算法在EBA算法基础上运用多表连接优化策略,避免了EBA算法存在的重复连接问题,从而进一步提高效率。EBA算法和AEBA算法主要针对单个连接查询计划,‘而GAEBA算法利用一种优先调度机制,有效处理多个连接查询计划。另外,本文对当前的存在的稀疏算法进行了改进,使之能适应本文提出的评分函数。实验和分析证明,本文提出的评分函数的合理性以及EBA算法、AEBA算法、GAEBA算法的高效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 问题的提出
  • 1.3 本文工作
  • 第二章 相关工作
  • 2.1 支持数据库检索的典型数据结构及对应的搜索方法
  • 2.2 面向关系数据库的评分函数
  • 2.2.1 基于元组树大小的评分函数
  • 2.2.2 基于传统IR的评分函数
  • 2.2.3 基于PageRank的评分函数
  • 第三章 查询模型
  • 3.1 数据模型和关键字查询
  • 3.2 系统架构
  • 3.2.1 IR引擎
  • 3.2.2 CN(Candidate Network)生成器
  • 3.2.3 基于CN的元组树生成器
  • 第四章 基于语义信息的评分函数
  • 4.1 问题定义
  • 4.2 基于语义信息的评分函数
  • 4.3 元组树对查询关键字相关度的计算
  • 4.3.1 直接贡献度
  • 4.3.2 间接贡献度
  • 4.3.3 元组树对查询关键字的贡献度
  • 4.4 元组间语义相似性的计算
  • 4.5 元组树和查询关键字间相关度的计算
  • 第五章 搜索算法
  • 5.1 基本算法
  • 5.2 稀疏算法
  • 5.3 EBA(Early-stopping Block Algorithm)算法
  • 5.4 AEBA(Advanced Early-stopping Block Algorithm)算法
  • 5.5 GAEBA算法
  • 第六章 实验及结果分析
  • 6.1 算法的查全率和查准率
  • 6.2 查询结果个数对不同算法的影响
  • 6.2.1 查询结果个数对EBA、AEBA、SP算法的影响
  • 6.2.2 查询结果个数对GAEBA、GP算法的影响
  • 6.3 查询关键字对算法执行速度的影响
  • 6.3.1 查询关键字对EBA、AEBA、SP算法的影响
  • 6.3.2 查询关键字对GAEBA、GP的影响
  • 第七章 结束语
  • 参考文献
  • 致谢
  • 攻硕期间参加的项目
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于语义信息的面向数据库的Top-k关键字查询技术
    下载Doc文档

    猜你喜欢