论文摘要
近年来,随着互联网技术的迅速发展以及海量数据的快速膨胀,海量数据的存储与管理成为业界关注的热点,同时也是“大数据处理”的重要支撑技术。分布式存储系统因其支持大容量的存储,提供良好的可扩展性,在容量、性能以及管理等方面都能够快速适应系统的变化而被广泛使用。然而随着对大容量数据、私人数据的存储效率要求越来越高,现有分布式存储系统中所采用的基于多副本的数据容错存储机制将导致系统占用过多额外存储开销以及数据传输带宽消耗,并且增加失效修复的存储空间。为提高数据存储的可靠性,降低数据的冗余率,业界对基于信息论的数据容错编码机制开展了研究,基于网络编码的分布式数据容错存储技术受到业界积极关注。针对分布式数据存储的容错问题,本文以开源云存储平台HDFS为基础,对基于多副本的数据容错技术带来的冗余开销以及额外传输带宽问题进行了研究。在此基础上,通过引入信息论中主流数据容错编码技术,对HDFS系统架构进行扩展,设计并实现了一个基于网络编码的分布式容错存储系统NC-HDFS,在有效降低存储冗余的基础上提高了系统的容错能力,满足了分布式数据存储的可靠性需求。论文主要工作包括:1)以开源云存储系统HDFS为基础,设计了一个面向网络编码的分布式数据容错存储平台,为融合各种异构容错编码算法提供了通用集成框架,支持基于存储节点规模及文件大小自适应优化编码策略。2)针对基于多副本的数据容错技术带来的存储冗余开销以及额外传输带宽的问题,从文件读、写及修复等角度设计并实现了基于纠删码的低冗余容错存储机制,并从文件占用的存储空间,修复时下载的数据量以及文件读、写和修复的时间开销等角度对系统性能进行了实测。3)针对基于纠删码的数据容错技术在数据修复时占用额外传输带宽问题,从文件读、写及修复等角度设计并实现了基于网络编码的容错存储机制,有效地降低了修复时的传输带宽消耗,并从文件占用的存储空间,修复时下载的数据量以及文件读、写和修复的时间开销等角度对系统性能进行了实测。
论文目录
相关论文文献
标签:分布式存储系统论文; 网络编码论文; 纠删码论文; 数据容错存储技术论文;