基于BAP的数据压缩、操作与查询处理系统的实现

基于BAP的数据压缩、操作与查询处理系统的实现

论文摘要

随着信息技术的发展及其在金融、交通、军事、生态环境检测、Web等领域的应用日益深入,海量数据大量涌现,这就要求数据库管理系统能够存储和处理上G、上T、甚至上P的海量数据。存储介质的价格/容量比的迅速下降使得海量数据的存储本身并不是问题,问题是如何有效存储和管理海量数据,并高效地支持上层查询处理。海量高频度数据中存在着大量的数据冗余,即同一数值会在同一属性列中多次出现。这不仅浪费了存储空间,也大大降低了查询效率。利用压缩数据库技术可以有效节省存储空间和I/O带宽。压缩数据库技术的研究内容包括:数据压缩算法以及压缩数据上的数据操作算法。近来,智能决策支持、在线智能商务以及数据仓库等新应用的出现要求数据库管理系统更好地适应主要面向数据读取应用的新特点。针对这个特点,数据库研究者们进一步审视传统数据库管理系统面向行存储的机制,开始研究并重新架构面向列存储的数据库管理系统。显然,面向列存储对于只读查询来说,因为仅仅从磁盘上读取与查询相关的属性列数据而不是整个元组的数据而大大节省了磁盘I/O。本文以现有关系数据库为基础,主要研究了适合于海量高频度关系数据的压缩算法以及存储结构和适合于压缩数据上的查询处理技术,包括数据操作算法和查询优化策略。本文的主要研究结果如下:提出了适合海量高频度关系数据的无损压缩存储算法TIDC。TIDC是一种基于属性划分的面向列存储的数据压缩方法。它通过整列数据的位置信息(TupleID)把按列存储的各属性列联系起来。对每一属性列的数据用其位置信息和相应的非常量值进行存储,实现了原始数据和压缩后数据的完全映射,有效去除常量数据,能够进行不解压(回算)而直接查询,达到了压缩存储、提高查询效率的目的。针对TIDC压缩存储策略提出了相应的数据操作算法包括选择、投影和连接,并给出了TIDC压缩数据上查询的部分优化策略。实现了BAP方法的压缩存储算法,给出了BAP压缩方法的数据操作算法包括选择、投影和连接,同时给出了部分查询优化策略。根据TIDC和BAP压缩存储方法的特点,设计并实现了一个海量高频度关系数据压缩存储原型系统。理论分析和初步实验表明:通过对原始数据进行属性划分,按列压缩存储,可以有效地减少存储空间,节省磁盘I/O,明显提高查询效率,而且,TIDC查询效率受数据量增加的影响不大。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究的背景和意义
  • 1.2 国内外研究现状
  • 1.2.1 数据库中数据压缩方法的研究
  • 1.2.2 压缩数据库中的数据操作算法
  • 1.2.3 压缩数据库中查询处理技术
  • 1.3 本文的主要研究内容
  • 1.4 本文的组织结构
  • 第2章 预备知识
  • 2.1 Golomb编码
  • 2.2 BAP压缩方法
  • 2.2.1 压缩存储结构
  • 2.2.2 压缩常量获得
  • 2.2.3 压缩效率
  • 2.2.4 双向映射算法
  • 2.3 本章小结
  • 第3章 TIDC压缩存储方法
  • 3.1 引言
  • 3.2 压缩存储结构
  • 3.3 元数据
  • 3.4 压缩存储步骤
  • 3.4.1 TIDC压缩存储步骤
  • 3.4.2 BAP压缩存储步骤
  • 3.5 无损性
  • 3.6 压缩效率
  • 3.7 本章小结
  • 第4章 压缩数据操作算法
  • 4.1 引言
  • 4.2 TIDC压缩数据操作算法
  • 4.2.1 选择操作
  • 4.2.2 投影操作
  • 4.2.3 连接操作
  • 4.3 BAP压缩数据操作算法
  • 4.3.1 选择操作
  • 4.3.2 投影、连接操作
  • 4.4 查询优化策略
  • 4.4.1 投影操作推迟
  • 4.4.2 涉及集合操作的优化
  • 4.4.3 中间结果的优化
  • 4.5 本章小结
  • 第5章 原型系统实现及实验
  • 5.1 原型系统
  • 5.1.1 系统构架
  • 5.1.2 模块功能实现
  • 5.2 实验
  • 5.2.1 实验条件
  • 5.2.2 实验内容设计
  • 5.2.3 压缩时间比较
  • 5.2.4 压缩比比较
  • 5.2.5 双向映射时间比较
  • 5.2.6 选择操作时间比较
  • 5.2.7 投影操作时间比较
  • 5.2.8 等值连接操作时间比较
  • 5.3 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].活性粉煤灰吸附焦化废水中BaP的研究[J]. 工业安全与环保 2010(09)
    • [2].焦化污水中BaP治理对策探讨[J]. 涟钢科技与管理 2016(01)
    • [3].骨碱性磷酸酶(BAP)酶联免疫吸附分析方法的建立及初步应用[J]. 标记免疫分析与临床 2014(03)
    • [4].微波消解海泥中BaP的浊点萃取-同步荧光分析[J]. 泉州师范学院学报 2014(06)
    • [5].苯并[a]芘(BaP)暴露对三疣梭子蟹(Portunus trituberculatus)P4501A1、P-gp、HSP70基因表达的影响[J]. 海洋环境科学 2015(05)
    • [6].大连湾沉积物-水界面BAP交换通量的影响因素[J]. 海洋科学 2012(07)
    • [7].焦化废水中致癌污染物BaP的分布及减排控制[J]. 山西化工 2008(06)
    • [8].阿法骨化醇联合阿仑膦酸钠对老年性骨质疏松症患者疼痛改善及血清25-OH-VD、BAP水平变化的影响[J]. 药品评价 2017(11)
    • [9].中西医结合治疗类风湿关节炎疗效及对患者血清TNF-α及BAP水平的影响[J]. 现代中西医结合杂志 2016(22)
    • [10].尿NTX、血清BAP在多发性骨髓瘤的临床意义[J]. 中国癌症杂志 2008(09)
    • [11].2型糖尿病性骨质疏松患者血清TNF-α和BAP测定价值[J]. 河北医药 2013(19)
    • [12].高效液相色谱法测定空气中苯并(a)芘的探讨[J]. 环境保护与循环经济 2008(07)
    • [13].强肾益骨活血方对骨质疏松症老年男性患者骨密度、血清IGF-I及BAP的影响[J]. 新中医 2020(07)
    • [14].苯并芘(Bap)联合血管紧张素Ⅱ(AngⅡ)微泵释放法建立实验性小鼠腹主动脉瘤模型[J]. 医学研究杂志 2017(02)
    • [15].巢湖流域十五里河水体与表层沉积物生物可利用磷(BAP)研究[J]. 生态与农村环境学报 2014(03)
    • [16].骨痿方对女性老年骨质疏松患者血清BAP影响的临床研究[J]. 山东中医杂志 2013(12)
    • [17].BaP污染对可口革囊星虫氧自由基积累及膜脂过氧化的影响[J]. 泉州师范学院学报 2013(02)
    • [18].肺癌患者血清NTx、ICTP和BAP水平与骨转移的相关性研究[J]. 临床肿瘤学杂志 2011(06)
    • [19].99Tc-MDP、阿法骨化醇对绝经后女性类风湿关节炎患者BAP、CTX及性激素表达水平的影响[J]. 中国妇幼保健 2020(07)
    • [20].血清25-OH-D、BAP、TRACP-5b与2型糖尿病患者胰岛功能及视网膜病变的相关性探讨[J]. 中外医学研究 2020(12)
    • [21].BaP诱导细胞恶性转化过程中DNA甲基化水平的变化[J]. 癌变·畸变·突变 2017(01)
    • [22].绝经后骨质疏松症患者血清TRACP-56、Hcy、BAP水平变化及诊断效能[J]. 山东医药 2017(35)
    • [23].胰岛素联合阿仑膦酸钠对老年糖尿病骨质疏松症患者骨密度及血清BAP、TRAP-5b、BGP水平影响[J]. 海南医学院学报 2016(13)
    • [24].唑来膦酸、降钙素对骨生化标志物BAP、N-MID、β-CTX的影响[J]. 中国骨质疏松杂志 2013(01)
    • [25].纳米TiO_2催化下表层土壤中BaP的紫外光降解[J]. 农业环境科学学报 2009(04)
    • [26].DEHP与BaP联合诱导Chang liver细胞线粒体介导细胞凋亡作用[J]. 中国公共卫生 2013(02)
    • [27].最佳水产养殖规范(BAP)认证及其在中国的发展[J]. 渔业现代化 2011(03)
    • [28].8种植物叶片对城市大气苯并(a)芘(BaP)的吸收比较[J]. 城市环境与城市生态 2011(04)
    • [29].肝豆状核变性致骨关节损害的临床观察及骨碱性磷酸酶(BAP)水平的研究[J]. 中国医药导刊 2011(07)
    • [30].SO_2和BaP复合暴露诱导小鼠肺线粒体损伤的分子机制[J]. 中国环境科学 2015(11)

    标签:;  ;  ;  ;  ;  

    基于BAP的数据压缩、操作与查询处理系统的实现
    下载Doc文档

    猜你喜欢