HDFS分布式元数据管理框架的研究与实现

HDFS分布式元数据管理框架的研究与实现

论文摘要

近年来,云计算不论是在国内还是在国外都受到了越来越多的关注。而Hadoop则被认为是当前主流的、使用最广泛的云计算开源平台。作为Hadoop的首选底层存储系统,HDFS(Hadoop Distributed File System)以其能够可靠的存储大规模数据的能力极大的推进了Hadoop的发展。然而,HDFS采用单节点管理虽然可以降低系统的复杂度,但是严重影响了系统的可靠性,并限制了系统的扩展性。对于HDFS的“单点”问题,不论在社区还是在企业都提出了一些解决方案,然而至今没有一个被大家广泛认同的解决方案。本文在仔细剖析当前主流解决方案优缺点的前提下,提出了一种HDFS分布式元数据管理框架(Distributed meta-data Management Framework, DDM)。通过使用分布式元数据管理框架不仅能够解决HDFS的“单点”问题,还能够有效提高文件系统的并行性与吞吐量。为了能够更好的适应当前的云环境中大规模数据处理和海量节点管理的要求,本文设计的元数据管理框架摒弃了HDFS将命名空间与文件块元数据统一管理的设计思路,而采用分层管理的思想,将命名空间的管理与文件块元数据的管理放在不同的层中,提高了HDFS的灵活性与扩展性。之后本文给出了HDFS这两类最重要元数据的分布算法与调整策略。在此基础之上,针对分布式框架设计了相应的管理机制,包括节点的加入与退出,副本的管理与恢复以及元数据的同步与迁移等,并针对HDFS设计上的一些不足做出了改进,以保证分布式元数据管理框架的正确性,高效性和可用性。在分析HDFS关键代码的基础上,分布式元数据管理框架最大程度的利用了HDFS已有的代码和机制,并对部分代码进行重构以提高其可读性、合理性并降低分布式管理框架的耦合性。最后,通过实验测试了DMM对HDFS读写性能,启动性能以及并行性的影响,并测试了分布式元数据管理框架的可用性与扩展性。实验结果表明,分布式元数据管理框架虽然在读写性能和启动性能上略逊于HDFS,但是在并行性、可用性与扩展性上都优于HDFS,能更好的满足Hadoop的应用环境。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究目的及意义
  • 1.3 研究内容
  • 1.4 本文组织结构
  • 第2章 相关工作
  • 2.1 Hadoop文件系统
  • 2.2 Hadoop文件系统单点问题
  • 2.3 已有Hadoop文件系统单点解决方案
  • 2.3.1 远程备份方案
  • 2.3.2 分布式锁服务方案
  • 2.3.3 DRBD+Linux HA方案
  • 2.3.4 副本方案
  • 2.3.5 更换文件系统方案
  • 2.4 本章小结
  • 第3章 分布式元数据管理框架的设计
  • 3.1 总体框架设计
  • 3.2 命名空间分布式设计
  • 3.2.1 相关概念
  • 3.2.2 子树分布算法
  • 3.2.3 子树调整算法
  • 3.2.4 全局索引表设计
  • 3.3 文件块元数据映射表分布式设计
  • 3.3.1 元数据分布算法设计
  • 3.3.2 等分块调整算法设计
  • 3.3.3 元数据查询算法设计
  • 3.4 节点管理设计
  • 3.4.1 元数据管理节点加入流程设计
  • 3.4.2 元数据管理节点退出流程设计
  • 3.5 副本管理设计
  • 3.5.1 副本复制模式选择
  • 3.5.2 副本检测与恢复设计
  • 3.6 租约机制设计
  • 3.6.1 租约设计
  • 3.6.2 读/写冲突的解决
  • 3.6.3 租约监控与租约恢复算法
  • 3.7 本章小结
  • 第4章 分布式元数据管理框架的实现
  • 4.1 节点间通信的实现
  • 4.1.1 通信机制的实现
  • 4.1.2 序列化/反序列化的实现
  • 4.1.3 分布式元数据管理框架协议的实现
  • 4.2 文件元数据管理的实现
  • 4.2.1 分布式命名空间的实现
  • 4.2.2 分布式元数据映射表的实现
  • 4.2.3 分布式元数据管理的实现
  • 4.3 高可用性机制的实现
  • 4.3.1 数据类和操作类
  • 4.3.2 失效检测的实现
  • 4.3.3 数据迁移与恢复的实现
  • 4.4 高可扩展性机制的实现
  • 4.5 本章小结
  • 第5章 实验与性能分析
  • 5.1 实验环境配置
  • 5.2 性能影响测试
  • 5.2.1 系统启动性能影响测试
  • 5.2.2 文件读写性能影响测试
  • 5.2.3 并行性影响测试
  • 5.3 可用性测试
  • 5.3.1 失效节点恢复测试
  • 5.3.2 失效处理过程中对读写请求的影响测试
  • 5.4 扩展性理论分析
  • 5.5 本章小结
  • 第6章 总结与展望
  • 6.1 内容总结
  • 6.2 未来展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的论文和参加的项目
  • 相关论文文献

    • [1].HDFS访问中间件的事务设计与实现[J]. 计算机与现代化 2017(01)
    • [2].基于用户信任值的HDFS访问控制模型研究[J]. 计算机科学与探索 2016(01)
    • [3].一种面向HDFS中海量小文件的存取优化方法[J]. 计算机应用研究 2017(08)
    • [4].基于HDFS的分布式存储策略分析[J]. 智能计算机与应用 2016(01)
    • [5].一种分布式文件系统—HDFS[J]. 电脑编程技巧与维护 2016(21)
    • [6].面向HDFS的可证明安全的单点登录协议[J]. 计算机应用研究 2016(07)
    • [7].基于HDFS的分布式区域电子病历存储策略[J]. 软件导刊 2015(06)
    • [8].一种基于HDFS的远程文件备份系统的设计和实现[J]. 计算机安全 2013(07)
    • [9].基于HDFS的云数据备份系统[J]. 吉林大学学报(理学版) 2012(01)
    • [10].HDFS下海量小文件高效存储与索引方法[J]. 小型微型计算机系统 2015(10)
    • [11].HDFS小文件读写优化策略[J]. 计算机时代 2016(09)
    • [12].公钥加密体系下的HDFS身份认证过程改进与实现[J]. 哈尔滨理工大学学报 2016(04)
    • [13].一种面向HDFS的数据随机访问方法[J]. 计算机工程与应用 2017(10)
    • [14].基于改进的模糊时间序列预测模型的HDFS副本选择策略[J]. 广东公安科技 2016(04)
    • [15].基于HDFS优化传统信息化架构的数据存储模式[J]. 指挥信息系统与技术 2016(05)
    • [16].初始信息素筛选的蚁群优化算法在HDFS副本选择中的研究[J]. 传感器与微系统 2017(04)
    • [17].基于改进HDFS的冠字号小文件分布式存储研究[J]. 电脑知识与技术 2014(17)
    • [18].异构环境中HDFS数据块调度算法的设计与实现[J]. 计算机工程 2017(08)
    • [19].基于Hadoop的云存储集群的设计[J]. 闽南师范大学学报(自然科学版) 2015(01)
    • [20].基于网络空间安全实时数据的HDFS小文件问题研究[J]. 信息网络安全 2017(10)
    • [21].浅析建立面向图书馆用户的HDFS云存储服务系统[J]. 农业图书情报学刊 2015(09)
    • [22].基于HDFS的云存储系统小文件优化方案[J]. 计算机工程 2016(03)
    • [23].一种基于HDFS面向Http协议的数据备份模块的设计[J]. 电信网技术 2017(05)
    • [24].ZFS在基于HDFS的近线存储系统中性能分析与实现[J]. 计算机研究与发展 2014(S1)
    • [25].HDFS中高效存储小文件的方法[J]. 计算机工程与设计 2015(02)
    • [26].改进的Kerberos协议在HDFS环境下的研究[J]. 计算机工程与设计 2014(10)
    • [27].基于HDFS的数字图书馆云存储系统研究[J]. 情报探索 2012(09)
    • [28].浅谈大数据Hadoop技术[J]. 电脑知识与技术 2017(32)
    • [29].一种跨HDFS集群的文件资源分布式高效存储方法[J]. 电子设计工程 2019(21)
    • [30].一种面向海量小文件的文件接收和存储优化方案[J]. 小型微型计算机系统 2015(08)

    标签:;  ;  

    HDFS分布式元数据管理框架的研究与实现
    下载Doc文档

    猜你喜欢