支持高效查询的数据立方构建技术研究

支持高效查询的数据立方构建技术研究

论文摘要

随着数字技术和计算机信息化的普及和发展,许多单位和部门都采用了计算机进行管理和运营。这些计算机系统通常都具有强大的收集、存储和处理数据的能力。生产监控数据、医疗数据、人口统计数据、财经数据和海洋数据等,这些日积月累的数据形成了一个巨大的“宝藏”,如何有效地管理这些数据,从中挖掘规律性知识,指导制定生产和营销策略,就显得越来越重要。数据仓库技术正是为此提供解决方案而产生的,也是目前学术界和工业界研究开发的热点问题之一。随着网络时代的到来,网络技术的飞速发展,已经而且正在继续改变着人们的生活及思维方式。每个人、每个企业可以在充分利用全世界信息资源的前提下做出自己的决策,人们不仅仅是在普通地查询和访问数据,更重要的是从数据中获取信息和知识,进而支持科学的决策。数据仓库及其之上的OLAP分析技术和数据挖掘技术提供了获取信息和知识的手段。数据仓库和OLAP技术都是基于多维模型的。多维数据模型是面向分析应用而提出来的一种直观的概念模型,可以直接地表达分析目标。该模型将数据看作数据立方体形式。而建立数据仓库进行OLAP处理的最终目的都是服务于决策分析的,需要的是对用户查询的快速而准确的响应,这就要求针对数据立方的查询结果要准确、响应要快速,因此数据立方的构建问题就变得极其重要。因此本文研究数据立方的构建等相关技术,具体包括以下几个方面的内容。(1)针对数据仓库的物化视图选择问题,提出了一种基于查询模式的动态物化视图选择算法。物化视图的选择和调整不但考虑了视图物化所需的空间限制,还参照了用户以往的查询模式来调整其计算参数,每个视图都被赋予了一个权重,视图被查询的次数越多,其权重越大,则该视图被物化的可能性就越大。与传统的物化视图选择算法相比,基于查询模式的动态物化视图选择算法的查询命中率大大提高。(2)针对高维低基数的数据立方的计算和查询问题,提出了一种基于压缩位图的索引结构,以及两个相应的高维数据集上数据立方计算和查询的算法。压缩位图索引的位“与”运算速度非常快,引入“起始有效指针”和“结束有效指针”大大降低了位“与”运算的次数和内存消耗。与Frag-Cubing算法相比,压缩位图索引算法计算数据立方的时间开销节省了30%,存储空间节省了25%以上。(3)针对消除前缀冗余和后缀冗余的语义压缩数据立方结构Dwarf的存储问题,提出了两个基于页面分区策略的加速查询的聚簇算法。递归聚簇算法考虑了点查询对Dwarf节点进行深度优先顺序查询的特点进行聚簇,层次聚簇算法考虑了范围查询对Dwarf节点进行广度优先顺序查询的特点进行聚簇。采用逻辑聚簇的机制来保证聚簇特性。与Dwarf原来的聚簇相比,递归聚簇算法更适合于点查询,层次聚簇算法适用于范围查询,查询时间和I/O时间的性能都有很大提高。(4)针对数据立方中对度量值进行实时动态泛化统计分析的查询需求,提出了一种适合动态泛化统计分析的数据立方模型。数据泛化是通过将相对较低层次的值(如属性age的数值)用较高层次的概念(如青年、中年和老年)置换来得到汇总数据的过程。新模型通过对传统数据立方模型的维和事实表的定义进行扩展,解决了传统方法对动态泛化统计分析实现的不灵活性和无法对动态泛化统计分析下的数据立方进行预先物化而造成查询性能过低等缺点。针对动态泛化分析查询,新模型在查询时间、用户满意度和操作灵活性等方面都优于传统模型。(5)最后根据对Dwarf上点查询和范围查询的特点的分析和对Windows磁盘管理子系统的分析,提出了一个加速数据立方查询的自定义缓冲机制,在基于自定义缓冲区的查询系统中,在聚簇Dwarf的基础上对维排序属性进行了重新选择,将一部分经常被查询到的Dwarf节点放在自定义的缓冲区中以减少I/O次数加快查询速度,自定义缓冲机制对查询性能的提升十分显著。总之,本文研究了数据仓库中关于数据立方构建的相关问题,提出了基于物化视图策略、索引策略、语义压缩策略和缓冲策略的新的数据立方构建算法,设计了一种适合动态泛化统计分析的数据立方模型,有效地解决了一系列数据立方构建和查询的相关问题,理论分析和大量的实验结果证明了这些算法的有效性和高效性。这些算法和模型将对今后数据仓库中数据立方的构建和查询等研究工作打下良好的基础,同时也对基于数据仓库的决策支持系统的建设与开发具有一定的参考价值。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 问题的提出
  • 1.2 数据仓库技术
  • 1.2.1 数据仓库的概念及特点
  • 1.2.2 数据仓库的体系结构
  • 1.2.3 数据集市
  • 1.3 多维数据模型
  • 1.3.1 数据立方
  • 1.3.2 多维数据模型的模式分类
  • 1.3.3 数据立方的预计算
  • 1.4 OLAP技术
  • 1.4.1 OLAP的概念和特点
  • 1.4.2 OLAP的基本操作
  • 1.4.3 OLAP的实现类型
  • 1.5 本文的主要研究内容与组织结构
  • 1.5.1 主要研究内容
  • 1.5.2 本文组织结构
  • 第2章 数据立方的构建技术
  • 2.1 引言
  • 2.2 物化视图
  • 2.2.1 物化视图的概念
  • 2.2.2 物化视图的作用
  • 2.2.3 物化视图的选择
  • 2.2.4 物化视图的维护
  • 2.2.5 物化视图的查询重写
  • 2.3 索引策略
  • 2.3.1 倒排索引
  • 2.3.2 简单位图索引
  • 2.3.3 编码位图索引
  • 2.3.4 B树索引
  • 2.4 语义压缩
  • 2.4.1 数据立方中的数据冗余
  • 2.4.2 Condensed Cube
  • 2.4.3 Quotient Cube和QC-Tree
  • 2.4.4 Dwarf
  • 2.4.5 Hierarchical Dwarf
  • 2.5 小结
  • 第3章 基于查询模式的动态物化视图选择算法
  • 3.1 引言
  • 3.2 相关工作
  • 3.3 算法的设计
  • 3.3.1 简单贪心算法
  • 3.3.2 排序算法
  • 3.3.3 代价模型
  • 3.3.4 基于查询模式的动态算法
  • 3.4 存储结构的设计
  • 3.4.1 查询的存储结构
  • 3.4.2 格的存储结构
  • 3.5 实验分析
  • 3.6 小结
  • 第4章 数据立方上的压缩位图索引
  • 4.1 引言
  • 4.2 相关工作
  • 4.3 压缩位图索引方法
  • 4.3.1 压缩的位图索引
  • 4.3.2 数据立方构建算法
  • 4.3.3 查询算法
  • 4.4 性能分析
  • 4.5 小结
  • 第5章 数据立方的聚簇Dwarf结构
  • 5.1 引言
  • 5.2 相关工作
  • 5.3 递归聚簇
  • 5.4 层次聚簇
  • 5.5 Dwarf的物理结构
  • 5.5.1 页面分区策略
  • 5.5.2 页内碎片
  • 5.5.3 逻辑聚簇机制
  • 5.6 性能分析
  • 5.6.1 Dwarf的构建
  • 5.6.2 Dwarf的查询
  • 5.7 小结
  • 第6章 泛化数据立方模型
  • 6.1 引言
  • 6.2 相关工作
  • 6.3 传统数据立方模型
  • 6.4 泛化数据立方模型
  • 6.4.1 基本概念
  • 6.4.2 维定义的扩展
  • 6.4.3 事实表定义的扩展
  • 6.4.4 等宽序列边界和概率表
  • 6.5 模型的建立和运行
  • 6.5.1 模型的建立
  • 6.5.2 模型中的视图物化策略
  • 6.5.3 新模型中的统计分析操作
  • 6.6 性能分析
  • 6.7 小结
  • 第7章 加速数据立方查询的自定义缓冲机制
  • 7.1 引言
  • 7.2 Dwarf上查询的分析
  • 7.2.1 点查询
  • 7.2.2 范围查询
  • 7.2.3 数据预处理
  • 7.3 Windows磁盘子系统分析
  • 7.3.1 基本概念
  • 7.3.2 高速缓存管理器
  • 7.3.3 高速缓存的预读
  • 7.4 自定义I/O缓冲区
  • 7.5 基于自定义缓冲区的查询系统的设计
  • 7.6 实验结果与性能分析
  • 7.7 小结
  • 第8章 结论
  • 8.1 本文的主要贡献与结论
  • 8.2 进一步的工作
  • 参考文献
  • 致谢
  • 攻博期间发表的论文
  • 攻博期间参与的项目
  • 作者简介
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    支持高效查询的数据立方构建技术研究
    下载Doc文档

    猜你喜欢