HDFS/Hadoop中基于网络编码的容错存储技术研究

HDFS/Hadoop中基于网络编码的容错存储技术研究

论文摘要

近年来,随着互联网技术的迅速发展以及海量数据的快速膨胀,海量数据的存储与管理成为业界关注的热点,同时也是“大数据处理”的重要支撑技术。分布式存储系统因其支持大容量的存储,提供良好的可扩展性,在容量、性能以及管理等方面都能够快速适应系统的变化而被广泛使用。然而随着对大容量数据、私人数据的存储效率要求越来越高,现有分布式存储系统中所采用的基于多副本的数据容错存储机制将导致系统占用过多额外存储开销以及数据传输带宽消耗,并且增加失效修复的存储空间。为提高数据存储的可靠性,降低数据的冗余率,业界对基于信息论的数据容错编码机制开展了研究,基于网络编码的分布式数据容错存储技术受到业界积极关注。针对分布式数据存储的容错问题,本文以开源云存储平台HDFS为基础,对基于多副本的数据容错技术带来的冗余开销以及额外传输带宽问题进行了研究。在此基础上,通过引入信息论中主流数据容错编码技术,对HDFS系统架构进行扩展,设计并实现了一个基于网络编码的分布式容错存储系统NC-HDFS,在有效降低存储冗余的基础上提高了系统的容错能力,满足了分布式数据存储的可靠性需求。论文主要工作包括:1)以开源云存储系统HDFS为基础,设计了一个面向网络编码的分布式数据容错存储平台,为融合各种异构容错编码算法提供了通用集成框架,支持基于存储节点规模及文件大小自适应优化编码策略。2)针对基于多副本的数据容错技术带来的存储冗余开销以及额外传输带宽的问题,从文件读、写及修复等角度设计并实现了基于纠删码的低冗余容错存储机制,并从文件占用的存储空间,修复时下载的数据量以及文件读、写和修复的时间开销等角度对系统性能进行了实测。3)针对基于纠删码的数据容错技术在数据修复时占用额外传输带宽问题,从文件读、写及修复等角度设计并实现了基于网络编码的容错存储机制,有效地降低了修复时的传输带宽消耗,并从文件占用的存储空间,修复时下载的数据量以及文件读、写和修复的时间开销等角度对系统性能进行了实测。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 典型分布式存储系统
  • 1.3 分布式容错技术
  • 1.4 本文工作
  • 1.5 论文结构
  • 第二章 分布式数据容错存储相关技术
  • 2.1 完全副本
  • 2.1.1 完全副本存储原理
  • 2.1.2 完全副本修复原理
  • 2.2 纠删码
  • 2.2.1 纠删码存储原理
  • 2.2.2 纠删码修复原理
  • 2.3 网络编码
  • 2.3.1 再生码概念
  • 2.3.2 修复模型
  • 2.3.3 精确修复再生码
  • 2.4 容错技术的指标比较
  • 2.5 本章小结
  • 第三章 NC-HDFS体系架构设计
  • 3.1 HDFS系统架构
  • 3.2 面向编码的NC-HDFS容错存储架构设计
  • 3.2.1 文件写流程
  • 3.2.2 文件读流程
  • 3.2.3 文件修复流程
  • 3.3 NC-HDFS中面向编码接口的设计
  • 3.3.1 通用编码类设计
  • 3.3.2 基于文件大小自适应优化编码策略
  • 3.3.3 NC-HDFS编码接口设计
  • 3.4 本章小结
  • 第四章:NC-HDFS的系统实现
  • 4.1 基于RS纠删码的具体实现
  • 4.1.1 基于RS纠删码的写流程
  • 4.1.2 基于RS纠删码的读流程
  • 4.1.3 基于RS纠删码的修复流程
  • 4.2 基于MBR再生码的具体实现
  • 4.2.1 基于MBR再生码的写流程
  • 4.2.2 基于MBR再生码的读流程
  • 4.2.3 基于MBR再生码的修复流程
  • 4.3 本章小结
  • 第五章:实验与分析
  • 5.1 实验环境
  • 5.2 实验结果与分析
  • 5.2.1 理论分析
  • 5.2.2 实验分析
  • 5.3 本章小结
  • 第六章:结束与展望
  • 6.1 本文总结
  • 6.2 未来展望
  • 致谢
  • 参考文献
  • 附录 附录A 攻读硕士学位期间参加的科研项目
  • 相关论文文献

    标签:;  ;  ;  ;  

    HDFS/Hadoop中基于网络编码的容错存储技术研究
    下载Doc文档

    猜你喜欢