Print

基于分布式并行文件系统HDFS的副本管理模型

论文摘要

分布式并行文件系统和副本的管理策略是目前比较热门的研究内容,近年来,美国、加拿大、澳大利亚等很多国家的一些大学和科研小组都在进行并行文件系统的研究,研制出一批各具特色的并行文件系统模型;一些计算机厂家也开发出一批专用并行文件系统,这些系统多为运行在UNIX操作系统的网络工作站或专用并行机上运行,包括商用并行文件系统、用于研究的并行文件系统以及公开源代码的并行文件系统。还有为运行Linux操作系统的机群设计的,HDFS作为一种新兴的并行文件系统,它既有通用并行文件的特点,同时又有自己不同的需求和设计目标,它支持海量的大文件存储,文件大小一般都以GB为单位,有效地支持跑在其上的应用程序批处理和具有高吞吐量的作业。副本的管理策略研究是分布是并行文件系统中的热门研究内容,本文提出了基于HDFS的动态副本管理模型,包括副本放置策略、动态副本创建策略和动态副本删除策略,这些策略动态的对HDFS中的副本进行管理,优化了系统的性能。

论文目录

  • 提要
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究现状及意义
  • 1.3 本文的主要工作和结构
  • 1.3.1 本文的主要工作
  • 1.3.2 本文的结构安排
  • 第2章 HADOOP 相关技术及环境
  • 2.1 HADOOP 整体框架
  • 2.2 并行编程模型 MapReduce
  • 2.2.1 MapReduce 和MPI
  • 2.2.2 MapReduce 的执行过程
  • 2.2.3 MapReduce 的任务分配
  • 2.3 HADOOP 中作业调度和数据调度的关系
  • 2.4 分布式文件系统 HDFS
  • 2.4.1 HDFS 的结构
  • 2.4.2 HDFS 的数据块的读写和复制
  • 2.4.3 HDFS 的名字空间
  • 2.4.4 HDFS 的通信协议
  • 2.4.5 HDFS 的健壮性
  • 2.4.6 HDFS 中文件的删除和恢复
  • 2.4.7 HDFS 的安全模式
  • 2.5 本章小结
  • 第3章 HDFS 与其他并行文件系统的比较
  • 3.1 HDFS 设计的前提和整体目标
  • 3.2 几种典型的并行文件系统案例分析
  • 3.2.1 GPFS
  • 3.2.2 PVFS
  • 3.2.3 Lustre
  • 3.3 HDFS 与其他并行文件系统的比较
  • 3.4 本章小结
  • 第4章 副本管理模块分析与设计
  • 4.1 分布式文件系统中副本管理特点
  • 4.1.1 需要解决的问题
  • 4.2 动态副本管理模型
  • 4.3 副本管理技术的基本概念
  • 4.4 本章小结
  • 第5章 副本管理模块实现
  • 5.1 动态副本管理的副本放置策略
  • 5.1.1 主副本缺省副本的放置策略
  • 5.1.2 其他副本的放置策略
  • 5.2 动态副本创建策略
  • 5.3 动态副本删除策略
  • 5.4 本章小结
  • 第6章 实验和数据分析
  • 6.1 实验环境
  • 6.2 实验用例及结果分析
  • 6.3 本章小结
  • 第7章 总结和展望
  • 参考文献
  • 致谢
  • 摘要
  • ABSTRACT
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/0f7406c3ff7b6fa7943f0936.html