基于支持列存储的数据压缩算法研究

基于支持列存储的数据压缩算法研究

论文摘要

由于日益庞大的业务处理,许多决策系统和OLAP系统的数据正在朝着TB数量级发展。面对各种存储了海量数据的巨型表,如何充分利用存储空间,节省系统维护成本,在查询海量数据时取得更好的性能,引起了数据库研究者们越来越多的关注。而将数据压缩技术引进数据库系统,成为了解决大数据量环境下数据库性能问题的有效手段之一。在传统的关系型数据库中,数据均是按行存储的(行存数据库),即关系表中同一条记录的不同属性值被依次顺序存放在物理磁盘上。遗憾的是,由于记录中不同的属性值通常取值于不同的值域,彼此间的相关性很小,导致按行存储的数据存储方式并不利于数据压缩的实现。列存数据库消除了行存数据库在数据压缩领域的不利条件。在列存数据库中,连续存储的数据均来源于同一个值域,而对同一个值域内的数据进行压缩正是各种经典数据压缩算法实现的前提和关键。为此,本文对如何将各种经典的数据压缩算法融入列存数据库进行了研究。首先,本文阐述了列存环境下数据压缩的重要意义,并对数据压缩技术的发展历程和国外主流列存商业数据库的现状进行了分析;其次,综述了数据压缩的相关概念以及列存数据库在数据压缩领域的巨大优势,并详细讨论了各种经典的数据压缩算法,具体包括了赫夫曼编码、算术编码、LZ77算法、LZW算法、RLE算法和空值压缩算法等。随后,本文深入研究了列存压缩运算库的结构设计。列存压缩运算库由压缩数据物理存储机制、压缩模块和数据源模块三个部分构成。其中,物理存储机制描述了不同压缩数据在列存数据库中同时存储的合理方案,是列存环境下各种压缩算法实现的必要保证;压缩模块则封装了具体压缩算法的细节,并负责对外提供统一的解压接口;而数据源模块扮演着通信媒介的角色,为压缩模块与数据库存储层之间的消息和数据传递提供服务。此外,通过归纳各种压缩数据的属性,本文对传统的数据库执行器算子进行了相应的改进,从而实现了压缩数据在压缩态下的直接查询。最后,本文以国产数据库神舟OSCAR为平台,具体实现了上述各项关键技术。通过对相关的性能测试结果进行对比分析,验证了本文所述内容的正确性和有效性,在减少列存数据库存储规模的同时,进一步自动优化了数据库系统的性能。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 1 绪论
  • 1.1 课题来源
  • 1.2 课题研究意义
  • 1.3 国内外研究动态
  • 1.4 课题研究方法和论文组织
  • 2 列存数据库中数据压缩算法的研究
  • 2.1 数据压缩综述
  • 2.2 支持列存储的数据压缩算法
  • 2.2.1 列存环境下的数据压缩优势
  • 2.2.2 列存环境下基于统计的数据压缩算法
  • 2.2.3 列存环境下基于字典的数据压缩算法
  • 2.2.4 RLE算法
  • 2.2.5 空值压缩算法
  • 2.3 各种数据压缩算法的比较与分析
  • 2.4 本章小结
  • 3 列存压缩运算库结构设计
  • 3.1 列存压缩运算库模型
  • 3.2 压缩数据的物理存储机制
  • 3.2.1 压缩元组的数据结构
  • 3.2.2 压缩值长度编码
  • 3.2.3 压缩值长度解码
  • 3.3 列存数据库执行器功能模块扩展
  • 3.3.1 压缩模块
  • 3.3.2 数据源模块
  • 3.4 列存数据压缩态下的查询优化
  • 3.5 本章小结
  • 4 神舟OSCAR列存压缩数据库管理系统
  • 4.1 OSCAR列存压缩数据库管理系统体系结构
  • 4.2 OSCAR列存压缩数据库存储模式设计
  • 4.2.1 基本概念
  • 4.2.2 总体结构设计
  • 4.2.3 块头属性功能描述
  • 4.3 OSCAR列存压缩数据库执行器模块设计
  • 4.3.1 功能结构图
  • 4.3.2 信息流图
  • 4.4 实验和验证
  • 4.4.1 解压后的数据查询
  • 4.4.2 压缩态下数据查询
  • 4.5 本章小结
  • 5 总结和展望
  • 5.1 研究总结
  • 5.2 研究展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].数据压缩算法研究[J]. 无线互联科技 2019(21)
    • [2].煤矿四旋翼飞行机器人环境信息数据压缩算法[J]. 工矿自动化 2020(06)
    • [3].海量数据归档系统数据压缩算法选择方法研究[J]. 中国电子科学研究院学报 2019(07)
    • [4].基于冗余数据压缩算法的经济信用风险研究[J]. 电子设计工程 2017(07)
    • [5].曲线数据压缩算法研究与应用[J]. 计算机系统应用 2010(03)
    • [6].心电信号数据压缩算法的研究[J]. 中国科技信息 2012(04)
    • [7].传感器网络小波数据压缩算法的设计与实现[J]. 中兴通讯技术 2009(05)
    • [8].改进的分层点云数据压缩算法[J]. 测绘科学 2017(09)
    • [9].无线传感器网络数据压缩算法综述[J]. 科技创新与应用 2015(32)
    • [10].多媒体技术数据压缩算法浅析[J]. 科技信息 2014(10)
    • [11].基于数据压缩算法的研究[J]. 沿海企业与科技 2011(02)
    • [12].多媒体数据压缩算法及其实现研究[J]. 电脑知识与技术 2020(21)
    • [13].国外雷达卫星星上数据压缩算法的新进展[J]. 国际太空 2015(08)
    • [14].传感器网络中一种基于一元线性回归模型的空时数据压缩算法[J]. 电子与信息学报 2010(03)
    • [15].舰船视频监控数据压缩算法的设计[J]. 舰船科学技术 2019(10)
    • [16].基于云架构下分布式数据压缩算法的研究[J]. 长治学院学报 2016(02)
    • [17].曲线数据压缩算法的研究及应用[J]. 计算机系统应用 2019(05)
    • [18].一种FPGA在轨重构配置数据压缩算法[J]. 航天器工程 2015(06)
    • [19].实时数据库中数据压缩算法的研究与实现[J]. 科技与企业 2016(06)
    • [20].对Huffman数据压缩算法的改进[J]. 福建电脑 2011(06)
    • [21].基于时序聚类的北斗位置冗余数据压缩算法[J]. 计算机工程 2012(04)
    • [22].电能质量数据压缩算法研究[J]. 四川电力技术 2012(01)
    • [23].细节分量树数据压缩算法在DCS系统中的应用问题及改进[J]. 电脑与电信 2008(12)
    • [24].GPS数据压缩算法研究[J]. 自动化仪表 2014(04)
    • [25].基于星载SAR的原始数据压缩算法[J]. 中国电子科学研究院学报 2013(01)
    • [26].基于地形高度域的数据压缩算法研究[J]. 电子学报 2016(12)
    • [27].基于移动PDM系统的数据压缩算法的选择研究[J]. 自动化与仪表 2017(02)
    • [28].过程数据压缩算法SDT的改进研究与应用[J]. 工业控制计算机 2009(08)
    • [29].云存储中一种改进的LZW数据压缩算法研究[J]. 科技通报 2017(07)
    • [30].WSN中基于分簇路由的多维度数据压缩算法研究[J]. 电子学报 2009(05)

    标签:;  ;  ;  ;  

    基于支持列存储的数据压缩算法研究
    下载Doc文档

    猜你喜欢