多维数据索引论文-胡玉涵

多维数据索引论文-胡玉涵

导读:本文包含了多维数据索引论文开题报告文献综述及选题提纲参考文献,主要关键词:数据查询,云存储,分布式索引,多维数据索引

多维数据索引论文文献综述

胡玉涵[1](2018)在《面向气象领域的多维数据索引结构的研究与实现》一文中研究指出随着数据量的急剧增长,满足许多领域数据处理实时性和准确性的要求也变得越来越难,而数据查询是数据处理的基础,如何提高查询效率显得至关重要。以气象数据为主要研究对象,随着气象服务的发展,用户的查询需求增加,而气象数据具有大规模、多维度的特点,采用分布式的云存储方式,大多数云存储系统是基于键值对(Key-Value)来存储数据的,这种方式主要支持主键Key的高效查询,而无法支持非Key的高效查询,多维的复杂查询仍然需要对整个数据集进行扫描,查询效率低下。因此,在Key-Value的存储模式下,利用多维数据索引提高查询效率成为当前学术界和工业界的重点研究内容之一。本文针对气象领域典型的数据特征,为解决Key-Value存储模式下的多维数据查询问题,提出了一种高效的MOTree多维索引结构。MOTree的索引结构与传统索引不同,它是有序的平衡树,支持稳定的动态更新和多种查询操作(包括布尔查询、点查询、范围查询),它利用前缀规则来进行索引的构建和查询,提高了索引的空间利用率,减少了索引的多维查询时间。同时,本文设计并实现了MOTree的构建、查询和更新算法,构建算法是基础,主要包括直接插入路径、合并已有路径、去除冗余路径叁个步骤。本文还定义了多维气象数据查询语言,主要用于用户查询请求的预处理和分段解析,基于MOTree设计并实现了多维气象数据查询引擎,该引擎可以支持多个气象数据维度的在线索引构建和多种气象数据的高效查询。本文用多维气象数据集和随机数据集分别将MOTree与已有索引结构在数据维度、节点数量、查询时间等多个方面进行了对比实验,理论分析与实验结果表明,MOTree支持高效的点查询和范围查询,且索引构建和更新时间开销更小。该索引结构能够为多维气象数据提供高效的查询,满足更多用户的查询需求,对推动气象领域的发展具有重要意义。(本文来源于《湖南大学》期刊2018-05-16)

尹春雷[2](2016)在《基于KD树和R树的多维云数据索引结构研究》一文中研究指出传统的关系型数据库由于扩展性、容错性等方面的不足,无法完全满足云计算系统中海量数据处理的要求,云存储技术应运而生。然而,现有的云存储系统大多基于键值对模型存储数据,主要提供基于键值的高效查询,复杂的多维查询则需要对整个数据集进行完全扫描,查询效率较低。由于存储模型不相同,已有的数据索引结构不能直接移植到云存储系统上,因此,云存储系统中的多维数据索引研究成为当前工业界和研究领域的热点问题之一本文提出了一种基于KD树和R树的多维云数据索引结构(简称KD-R索引)。KD-R索引采用双层索引模式,在全局服务器建立基于KD树的多维全局索引,在局部数据节点构建R树多维本地索引,通过两者的结合,尽量避免对不可能包含查询结果的数据节点的扫描。针对局部索引与全局索引的衔接问题,提出了基于多层感知神经网络的索引结构动态优化策略,能够优化局部索引向全局索引发布的节点层次。同时,设计了基于KD-R索引的多维关键字查询算法和多维范围查询算法,并基于数据的局部性访问原理,对多维关键字查询算法进行了改进。最后,通过实验室小型集群上的实验测试了KD-R索引多维查询效率、维度适应性,以及双层索引结构动态调整的效果,实验结果表明,KD-R索引能够有效提高多维查询的效率,并具有较强的可扩展性。(本文来源于《云南大学》期刊2016-09-01)

何婧[3](2016)在《面向云计算的多维数据索引研究》一文中研究指出云计算技术的广泛应用使数据呈现出爆炸式增长的趋势,对传统的数据管理技术提出了新的挑战。现有的云存储系统普遍采用分布式哈希表的形式存取数据,这种基于key-value的模型在单维度查询时可以获得较高的访问效率,但是对多维度查询的支持不足。当用户提交基于多个属性列的多维查询时,由于缺乏有效的二级索引系统的支持,需要运行MapReduce任务扫描整个数据集,从而使查询效率降低。因此,近年来云存储辅助索引成为学术界研究的热点,相关成果陆续发表在数据库领域国际顶级会议和顶级期刊上。本文对云计算环境下的多维数据索引技术进行研究。论文工作分别从云存储系统中的多维数据索引、基于主从结构的双层多维数据索引、以及纯分布式环境下支持动态维度扩展的多维数据索引叁个方面展开,主要内容概述如下:1.针对现有云存储系统主要支持单键值索引,缺乏有效的多维索引,导致多维度查询效率较低的问题,本文提出了一种基于UB树的新型多维云数据索引方案:CloudUB。该方案首先利用Z曲线进行多维空间的降维,然后沿Z曲线将多维空间划分成Z区域,利用B+树组织Z区域信息,建立改进的UB树索引。CloudUB在执行多维查询时能够基于Z区域滤除不可能包含查询结果的数据空间,从而提高查询效率。另外,本文设计了基于HBase的索引构建和维护机制,并提出了相应的实时和离线索引构建算法。该机制把基于Z曲线降维的B+树叶节点保存在HBase中,将原始多维空间的查找问题转化成现有云存储系统能够支持的key-value查询问题,从而支持MapReduce技术对索引表的高并发访问。最后,本文设计了CloudUB的多维查找算法并进行了效率分析。基于Hadoop2.2版本、1000万级数据量的测试结果表明,CloudUB索引方案支持灵活、高效的实时索引构建,多维查询效率显着提升。2.通过对云计算系统中数据管理方式的深入研究,本文提出了一种符合云计算系统主从管理方式的双层多维数据索引:KD-R。该索引方案为云计算系统中的每一个数据服务器上的本地数据建立一个R树索引,所有本地的R树索引共同构成双层索引系统的下层索引,然后将每个R树索引的部分节点信息发布到全局服务器层,由此构建一个统一的KD树索引。针对将哪些局部索引节点发布到全局索引的问题,本文设计了自适应的节点发布算法,以及选择发布节点的代价模型,该代价模型可以估算局部索引节点的索引代价。索引系统根据代价模型对局部数据服务器上的索引节点进行周期性的检测,然后利用自适应节点发布算法,调整发布的局部索引节点,达到动态优化KD-R索引的目的。实验结果表明,基于KD-R索引的多维查询算法具有较高的内存利用率和查询效率,展示了良好的可用性。3.针对云计算系统中用户的需求具有弹性,存在动态扩展查询维度的现状,本文提出了一种基于Chord覆盖网络和分区位图的多维云数据索引:CB-index。该索引方案采用Chord覆盖网络构建全局索引,克服了主从结构带来的全局服务器易形成瓶颈的问题,实现了纯分布式的双层索引架构;同时,本文设计了分区位图编码机制,通过分区位图构建本地数据服务器上的局部数据索引,实现了局部索引节点与Chord覆盖网络的结合。根据分区位图编码前缀可扩展的特性,本文设计了动态的索引维度扩展算法,在维度动态扩展的同时避免了索引结构的完全重构。除此之外,本文还设计了自适应的索引节点调整算法、多维查询算法和索引维护算法。实验结果表明,CB-index索引具有较高的多维查询效率,并支持灵活的索引维度扩展,能够适应云计算环境下用户的动态查询需求。(本文来源于《电子科技大学》期刊2016-03-15)

张俊杰[4](2015)在《物流信息文件多维元数据索引与查询研究》一文中研究指出随着电子商务和物流产业的迅猛发展,其存储处理系统中的物流文件具有数据量大、数据更新频繁等特点,对物流文件如何快速地实现查找是物流系统迫切需要解决问题之一。物流文件中含有大量的多维元数据,现有的索引结构因没有充分利用其中元数据,而不能更有效的满足多维元数据复杂查询的要求。为此,本论文主要研究内容如下:首先,在物流文件中,根据多维元数据索引结构的需求,本文在R树节点上放入布隆过滤器(Bloom Filter)提出一种多维元数据索引结构,称为R树布隆过滤器,简称R-TBF(R-Tree and Bloom Filter)。物流文件中元数据更新频次高,为了保证索引结构的更新性能,本文接着提出R-TBF索引结构的更新机制,它由基础索引结构和更新缓存结构组成。最后用在物流文件中的多维元数据的查询实例说明我提出的索引结构与更新机制。其次,为了能够在物流信息存储系统中快速的查找到物流文件,本文采用R-TBF索引结构,建立元数据立方体(metadata cube),设计了一种基于元数据立方体的R树布隆过滤器的查询机制,英文简称R-TBFMC(Query Mechanism of R-Tree and Bloom Filter based Metadata Cube)。查询机制设计了叁个模块:R-TBFMC主模块,R-TBFMC查询模块以及R-TBFMC更新模块。同时设计了两种查询方法,分别是范围和值查询法和范围最大值查询法。最后,进行了多维元数据查询机制的实现工作,实现了多维元数据查询机制的叁个模块,以及两种查询算法——范围和值查询法和范围最大值查询法。并对提出的查询机制(基于元数据立方体的R树布隆过滤器的查询机制)的性能进行测试与分析来证实此查询机制的高效性。(本文来源于《南京邮电大学》期刊2015-05-01)

何婧,吴跃,杨帆,尹春雷,周维[5](2014)在《基于KD树和R树的多维云数据索引》一文中研究指出针对云存储系统大多基于键值对<key,value>模型存储数据,多维查询需要对整个数据集进行完全扫描,查询效率较低的问题,提出了一种基于KD树和R树的多维索引结构(简称KD-R索引)。KD-R索引采用双层索引模式,在全局服务器建立基于KD树的多维全局索引,在局部数据节点构建R树多维本地索引。基于性能损耗模型,选取索引代价较小的R树节点发布到全局KD树,从而优化多维查询性能。实验结果表明:与全局分布式R树索引相比,KD-R索引能够有效提高多维范围查询性能,并且在出现服务器节点失效的情况下,KD-R索引同样具有高可用性。(本文来源于《计算机应用》期刊2014年11期)

董云云[6](2014)在《多维数据索引架构研究》一文中研究指出随着网络应用的快速发展,因特网产生的数据呈现爆炸式增长,要高效地实现这种海量数据的索引就成了一个重大的问题,对于多维数据索引就更是非常困难。虽然云计算作为一种新兴的计算基础设施,可以把大量数据放在一个资源池,让多台计算机并行处理,但作为云计算平台基础设施的重要部分—云数据存储系统在应用于多维数据就显得不是很适合。由于当前绝大多数云存储系统都是采用分布式哈希(DHT)的方式来构建数据索引,数据被组织成键-值(Key-Value)对的形式来进行存储。所以,这种类型的云存储系统只能支持关键字的查找,而对于多维数据索引里的范围查询和最近邻查询问题都不是很理想。因此本文在综合研究多维数据索引和存储的基础上,首先尝试提出了一种新型的多维数据索引架构Skip-Octree,并采用Octree树这种结构来存储数据,在其上面建立相应的索引机制,以通过八叉树利用不同维度进行空间分割的思想来实现对数据的简单索引。然后在Skip-Octree多维数据索引架构的基础上,设计了与之相关的点插入算法、点删除算法、点查询算法、范围查询算法及Octree树的分裂合并算法。最后,通过仿真实验对提出的这些算法进行了测试,分别从数据的插入删除、点查询、范围查询、分裂合并及双层架构的效率评测等多方面证明了该架构的可行性和高效性,实验采用和传统的Octree树结构进行对比,结果显示Skip-Octree架构在多个方面都比Octree树结构表现的较好,性能都有所提升。该架构的提出,不仅简化了对树结构平衡性的调整,还充分利用了Skip lists分层发布的特性,实现了八叉树也以1/2概率向上发布,把立体空间的查询一下子变为线性结构式的索引,同时还提高了索引效率并减少了存储空间。从实验结果显示可知,Skip-Octree多维数据索引架构是可行的、高效的,对于企业未来应用也可以起到很好的参考作用。(本文来源于《云南大学》期刊2014-05-01)

黄维辉,熊翱[7](2013)在《RAKDB-Tree——一种基于近似区域的多维数据索引结构》一文中研究指出多维数据的处理已经成为影响很多领域发展的关键因素,特别是多维数据的相似性查询已经被用在很多领域中。当数据维度很大的时候,大多数索引结构处理的性能下降,这现象被称为"维度灾难"。针对多维度灾难,RAKDB-Tree是本文提出的一种高效处理多维数据的索引结构。该索引结构首先把数据空间划分为子空间,然后使用改进的KDB-Tree对子空间建立索引。RAKDB-Tree的查询、插入、删除等算法使得,索引结构一直保持较优状态。实验结果表明,RAKDB-Tree能够很好解决因为数据维度增加而带来的各种问题。(本文来源于《软件》期刊2013年11期)

朱夏,罗军舟,宋爱波,东方[8](2013)在《云计算环境下支持复杂查询的多维数据索引机制》一文中研究指出针对云计算环境下分布式存储系统的数据索引不支持复杂查询的问题,提出了一种多维数据索引机制M-Index,采用金字塔技术(pyramid-technique)将数据的多维元数据描述成一维索引,在此基础上首次提出前缀二叉树(prefix binary tree,PBT)的概念,通过提取一维索引和PBT有效节点的前缀作为数据在存储系统中的主键.数据根据主键和一致性Hash机制发布到存储节点组成的覆盖网络.设计了基于M-Index的数据查询算法,将复杂查询请求转换成一维查询键值,有效支持多维查询和区间查询等复杂查询模式.理论分析和实验表明,M-Index在复杂查询模式下具有良好的查询效率和负载均衡.(本文来源于《计算机研究与发展》期刊2013年08期)

刘芳妤[9](2013)在《云环境下多维数据索引结构的研究》一文中研究指出云计算平台作为一种新兴的计算基础设施还需要很多的后续工作,构建云的基础设施最重要的一步就是构建具有良好扩展性的数据存储系统,并且这些数据存储系统必须支持很大的工作量负载。现有比较主流的云存储系统主要包括Google的BigTable, Amazon的Dynamo等。而当前大部分的云存储系统中,多是采用DHT(分布式哈希表)方式来构建数据索引,是一种纯粹的Key-Value模型来组织数据,通过主键高效的获取数据。这类解决方案通常是采用特殊化处理后,基于语义的或者是局部性的映射机制来优化查询的性能,但在多维度查询方面不是很理想。因此本文尝试提出了一种新型的在云环境下的分布式多维数据索引结构SUB-index(skip-webs UB-tree),为解决此类问题提出一些参考。本文尝试提出一种在云环境下多维数据索引结构SUB-index。SUB-index采用UB树这种结构来作为多维数据索引的研究基础,尝试用一种类似线性结构skip-webs架构来构造分布式索引。这样使得SUB-index不仅结合了skip-webs架构中不需要进行平衡调整以代替平衡树中复杂的调整的特性,而且利用UB树考虑到存储结构和磁盘的结构相对应的优势。SUB-index为在云环境下的有效多维数据索引架构提出了新的参考。本文还设计了SUB-index多维数据索引结构的相关查询算法,包括点查询以及范围查询,还有插入和删除的算法。论文最后还对所提出的分布式多维数据索引结构SUB-index的点查询、范围查询、插入更新和可靠性设计了相关的测试和进行了仿真实验。从实验结果可以看出,SUB-index索引结构是高效的,并且在范围查询方面提供了良好的支持。(本文来源于《云南大学》期刊2013-03-01)

高梦颖[10](2011)在《存储系统中多维元数据索引的高效更新方法研究》一文中研究指出随着信息量的增长,大规模存储系统的存储容量从以前的TB(Terabyte)级上升到PB(Petabyte)级甚至EB(Exabyte)级,使得查找和处理文件变得越来越困难。现有的基于层次目录树结构的数据存储系统的扩展性和功能性不能有效地满足大规模文件系统中快速增长的数据量和复杂元数据查询的需求。有效地对存储系统元数据进行组织,比如建立各种索引结构,可以提供各种复杂的查询服务,帮助用户更好地使用文件系统。提出了使用结合R树和布隆过滤器索引来支持多维元数据的索引功能的结构,以支持多种复杂的元数据查询,如点查询、范围查询、K最邻近查询和模糊查询等。由于现有的关于R树的研究主要考虑静态数据,只关注高效的查询处理,R树本身的更新性能较低,特别是应用在海量文件元数据频繁更新的环境下,直接对索引的修改会产生大量的磁盘操作并可能引起索引结构的不平衡。研究的主要内容是结合多版本(versioning)的思想,提出一个基于R树索引结构的更新策略,将一批更新数据看作一个新增的版本。减少更新操作的次数,解决热点数据反复更新问题;同时批量操作数据的更新;使用多个版本结构,利用数据的局部特性优化更新算法。通过与已有的更新算法进行比较和分析,更新策略采用缓存更新数据的方法,可以有效地提高更新效率,减少更新操作的时间代价;同时点查询效率也有所提高,而范围查询效率有略微的下降。(本文来源于《华中科技大学》期刊2011-01-01)

多维数据索引论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

传统的关系型数据库由于扩展性、容错性等方面的不足,无法完全满足云计算系统中海量数据处理的要求,云存储技术应运而生。然而,现有的云存储系统大多基于键值对模型存储数据,主要提供基于键值的高效查询,复杂的多维查询则需要对整个数据集进行完全扫描,查询效率较低。由于存储模型不相同,已有的数据索引结构不能直接移植到云存储系统上,因此,云存储系统中的多维数据索引研究成为当前工业界和研究领域的热点问题之一本文提出了一种基于KD树和R树的多维云数据索引结构(简称KD-R索引)。KD-R索引采用双层索引模式,在全局服务器建立基于KD树的多维全局索引,在局部数据节点构建R树多维本地索引,通过两者的结合,尽量避免对不可能包含查询结果的数据节点的扫描。针对局部索引与全局索引的衔接问题,提出了基于多层感知神经网络的索引结构动态优化策略,能够优化局部索引向全局索引发布的节点层次。同时,设计了基于KD-R索引的多维关键字查询算法和多维范围查询算法,并基于数据的局部性访问原理,对多维关键字查询算法进行了改进。最后,通过实验室小型集群上的实验测试了KD-R索引多维查询效率、维度适应性,以及双层索引结构动态调整的效果,实验结果表明,KD-R索引能够有效提高多维查询的效率,并具有较强的可扩展性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

多维数据索引论文参考文献

[1].胡玉涵.面向气象领域的多维数据索引结构的研究与实现[D].湖南大学.2018

[2].尹春雷.基于KD树和R树的多维云数据索引结构研究[D].云南大学.2016

[3].何婧.面向云计算的多维数据索引研究[D].电子科技大学.2016

[4].张俊杰.物流信息文件多维元数据索引与查询研究[D].南京邮电大学.2015

[5].何婧,吴跃,杨帆,尹春雷,周维.基于KD树和R树的多维云数据索引[J].计算机应用.2014

[6].董云云.多维数据索引架构研究[D].云南大学.2014

[7].黄维辉,熊翱.RAKDB-Tree——一种基于近似区域的多维数据索引结构[J].软件.2013

[8].朱夏,罗军舟,宋爱波,东方.云计算环境下支持复杂查询的多维数据索引机制[J].计算机研究与发展.2013

[9].刘芳妤.云环境下多维数据索引结构的研究[D].云南大学.2013

[10].高梦颖.存储系统中多维元数据索引的高效更新方法研究[D].华中科技大学.2011

标签:;  ;  ;  ;  

多维数据索引论文-胡玉涵
下载Doc文档

猜你喜欢