论文摘要
随着互联网技术迅猛发展,XML已逐渐成为数据表达和数据交换的标准。越来越多的Web数据通过XML文档形式呈现。如何有效管理这些XML数据,是当前数据库领域一个重要研究课题。XML数据具有半结构化特征,其存储、查询、更新比传统结构化数据更为复杂。使用传统数据库技术解决XML数据管理问题,其效果不佳。为此,需要根据XML数据特点,研究开发新的XML数据管理技术。本文主要研究XML数据管理中的结构查询处理。XML结构查询是XML所特有的一类查询,其查询条件为XML结构约束,以路径表达式形式出现。在XML数据查询中,XML结构查询占有基础地位,许多已知的XML查询语言,如XQuery,XPath等,都以XML结构查询作为其核心部分。因此,高效的XML结构查询处理在XML数据管理中非常重要。本文根据路径表达式的不同,对XML结构查询实行分类处理,从而提高其查询效率。首先,本文提出了一种多分类XML结构查询处理框架MCXArch,具体描述了该框架的两个重要组成部分:查询执行模型MCXEng和查询优化模型MCXOpt。在模型MCXEng中,给出了各类查询执行算子。在模型MCXOpt中,给出了多类结构查询优化规则。接着,本文围绕MCXArch框架,分析研究了四个XML结构查询关键技术点:XML线性路径匹配;XML分支路径匹配;XML结构查询加速和XML包含连接估计。在XML线性路径匹配研究中,本文提出了两种新匹配算法:整数差值匹配法和约简式遍历匹配法。整数差值匹配法用于XML简单线性路径匹配;而约简式遍历匹配法主要用于XML复杂线性路径匹配。这两种匹配算法都通过约简方式,提高查询匹配效率。在XML分支路径匹配研究中,本文给出了两种启发式匹配算法:Heur-PC和Heur-Unnested。算法Heur-PC用于简单分支路径匹配;算法Heur-Unnested用于非自嵌套分支路径匹配。与先前的小枝连接类匹配算法相比,两种启发式算法所需的查询匹配时间更少。在XML结构查询加速研究中,本文提出了一种位图过滤加速法。利用前/后缀标签位图,该方法能加速多类查询匹配算法,如遍历类匹配算法、连接类匹配算法等。本文给出了过滤加速原理,并研究了位图过滤加速法与查询匹配算法的集成。在XML包含连接估计研究中,本文给出了一种权重哈尔小波的估计方法。在预处理阶段,使用哈尔小波,压缩统计数据,生成小波摘要。在查询估计阶段,利用小波系数重构,获取XML包含连接估计值。同时,在估计方法中,使用概率权重模型,体现查询负载变化。在相同的空间限制下,权重哈尔小波估计法比先前的XML包含连接估计法具有更小的估计误差。
论文目录
摘要ABSTRACT第1章 绪论1.1 研究背景与目的1.2 相关工作及研究现状1.2.1 原生XML数据库系统研究1.2.2 XML结构查询处理研究1.2.3 XML存储及索引研究1.2.4 现有研究的问题和不足1.3 本文研究思路1.4 本文研究内容1.5 本文组织第2章 MCXARCH:一种多分类XML结构查询框架2.1 引言2.2 XML结构查询框架MCXArch2.3 多分类 XML结构查询执行模型2.3.1 查询执行计划2.3.2 查询匹配算子2.3.3 结果重构算子2.3 4 XML结构索引管理2.3 5 XML结构元信息管理2.4 多分类XML结构查询优化模型2.4.1 XML查询路径2.4.2 查询路径重写2.4.3 选择性估计2.4.4 查询执行决策2.4.5 静态信息管理2.4.6 动态信息管理2.5 本章总结第3章 约简式XML线性路径匹配技术3.1 引言3.2 简单线性路径匹配3.2.1 现有方法3.2.2 整数路径编码3.2.3 整数差值匹配3.2.4 长路径处理3.3 复杂线性路径匹配3.3.1 自动机遍历匹配3.3.2 约简缩略树3.3.3 约简式遍历匹配3.4 XML线性路径匹配应用3.5 实验及性能评价3.5.1 实验设置3.5.2 简单线性路径匹配实验3.5.3 复杂线性路径匹配实验3.6 本章总结第4章 启发式XML分支路径匹配技术4.1 引言4.2 现有方法4.2.1 结构连接算法4.2.2 完全小枝连接匹配算法4.3 非自嵌套分支路径匹配4.3.1 非自嵌套启发模型4.3.2 Heur-Unnested算法实现4.4 简单分支路径匹配4.4.1 标签编码4.4.2 路径匹配点模型4.4.3 Heur-PC算法实现4.4.4 其他细节4.5 XML分支路径匹配应用4.6 实验及性能评价4.6.1 实验设置4.6.2 简单分支路径匹配实验4.6.3 非自嵌套分支路径匹配实验4.7 本章总结第5章 面向XML结构查询的位图过滤加速技术5.1 引言5.2 标签位图5.2.1 预备定义5.2.2 标签位图5.2.3 位图创建5.2.4 位图约简5.3 标签位图过滤加速原理5.4 标签位图过滤集成5.4.1 遍历匹配中的位图过滤集成5.4.2 结构连接匹配中的位图过滤集成5.4.3 游标流匹配中的位图过滤集成5.5 实验及性能评价5.5.1 实验设置5.5.2 线性路径匹配加速实验5.5.3 分支路径匹配加速实验5.5.4 空间代价5.6 本章总结第6章 基于权重哈尔小波的XML包含连接估计技术6.1 引言6.2 XML包含连接估计6.3 现有方法6.3.1 间隔模型6.3.2 PL直方图法6.3.3 IM随机取样法6.4 权重哈尔小波估计法6.4.1 标签名对模型6.4.2 哈尔小波技术6.4.3 估计方法6.5 实验及性能评价6.5.1 实验设置6.5.2 估计误差度量6.5.3 构造代价6.5.4 估计代价6.6 本章总结第7章 总结与展望7.1 论文研究工作7.2 论文创新点7.3 未来工作展望参考文献致谢作者简历
相关论文文献
标签:结构查询论文; 路径匹配论文;