论文摘要
数据仓库作为当今热门的数据分析工具,为企业决策提供了有力支持的同时,也越来越引起人们的关注。数据仓库的数据量较为庞大,实现数据分析与决策支持的复杂功能需要解决海量数据的高效存取与快速即席查询两大重要课题。索引关注的是数据的存取机制,设计良好的索引不仅能够提供很好的数据组织方式,而且能够最大程度地提升查询的性能。传统的行存储方式,在数据库系统中表现出了较好的性能,广泛地应用于企业应用。然而,传统的行存储数据库并不能像处理事务应用一样为企业决策提供高效的查询分析。近年来列存储的数据库架构被重新审视,对于数据仓库与分析支持应用中读优化的查询型工作,列存储表现出比行存储具有更加显著的性能。现有列存储的商业数据库系统、专利系统和开源系统等,都在商业智能和数据仓库应用环境中,体现出了列存储方式较行存储方式明显的优越性。索引技术是提升海量数据存取和数据查询效率的关键技术之一,在列存储的DWMS中尤为重要。本文以索引技术在列存储DWMS中的应用为核心内容,重点分析了B+树索引在列存储DWMS中的实现技术及其改进方法,并提出了列存储DWMS中的连接索引。传统的B+树索引在更新事务环境中具有较好的性能,然而在面向列存储的分析型数据仓库查询环境下,时间空间代价较大。本文根据列存储数据仓库查询环境的特点,提出一种新型树型索引——RB+树(Reduced B+-Tree)。该索引对传统B+树结构进行了改进,并结合自底向上创建索引树的方法,使得索引的空间利用率、创建和查找效率得到显著的提高。将RB+树应用于列存储数据仓库中,建立了行号索引、列值索引,特别的为解决星型模型中多表连接问题,提出了连接索引,有效地提高了列存储数据仓库中元组重构与多表连接的效率。在数据仓库基准数据集SSB上的实验结果验证了本文方法的有效性。