通用分布式文件系统的研究与改进

通用分布式文件系统的研究与改进

论文摘要

在信息化飞速发展的今天,信息的不断膨胀导致分布式文件系的应用越来越宽泛,其中HDFS因其良好的扩展性,容错性和开源性得到业界的广泛关注。但其设计由于是仿照GFS,因此主要是为搜索引擎应用而优化的,要将其应用到其它领域需要进一步的研究和改进。尽管在搜索引擎中文件多是以大数据集的方式出现,但是在其它很多应用中,大量小文件的访问是很普遍的。而HDFS在大量小文件的访问上性能非常的低,尽管HDFS有很多优秀的特性,但小文件访问的低效性还是限制了其应用范围。目前解决HDFS小文件问题最有效最可行的方法就是将小文件集中转化为Sequencefile文件,然后对小文件的处理转化为对Sequencefile文件的处理。在以上前提下,本文设计并实现了seqtool转化工具。该工具可以高效地将大量小文件直接转化为Sequencefile文件;同时由于小文件通常是以归档文件的形式存在,因此该工具同样支持归档文件到Sequencefile文件的直接转化;为满足应用的追加写需求,该工具还支持对Sequencefile文件的追加写;最后该工具还支持对小文件在Sequencefile内进行不同层次的压缩以节省空间。同时本文还实现了Sequencefile的高效随机读取,通过为Sequencefile文件引入了一个附加的元数据文件,里面记录的是每个小文件所在的位置,这样通过读取该文件,并使用字典树加二级索引的算法构造查询数据结构,可以高效的实现在Sequencefile中对小文件的随机读取。除此之外本文还实现了HDFS的Web管理界面,实现了查看,删除,上传,下载等文件管理的基本功能。最后,本文对使用Sequencefile文件代替大量小文件的效果进行了性能测试与比较。对于批量直接读写小文件和使用Sequencefile来代替,性能差距是非常明显的,Sequencefile有着良好的性能优势,同时由于改善了Sequencefile的随机读取效率,因此Sequencefile在随机读取测试中的性能优势也十分明显。最后针对WordCount的MapReduce任务进行测试,Sequencefile的性能优势同样十分明显。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 分布式文件系统的发展
  • 1.2.1 AFS和NFS
  • 1.2.2 SAN和NAS
  • 1.2.3 Lustre和PVFS
  • 1.2.4 开源分布式文件系统
  • 1.3 本论文工作
  • 1.4 本文结构
  • 第二章 分布式文件系统相关技术研究
  • 2.1 分布式计算
  • 2.1.1 分布式计算的工作方式
  • 2.1.2 为什么需要分布式计算
  • 2.1.3 分布式计算的应用范围
  • 2.1.4 分布式计算的安全性
  • 2.2 分布式文件系统架构
  • 2.2.1 元数据的存放
  • 2.2.2 服务器的结构
  • 2.2.3 文件的映射
  • 2.2.4 客户机的状态
  • 2.3 分布式文件系统的关键技术
  • 2.3.1 统一名字空间
  • 2.3.2 锁管理机制
  • 2.3.3 副本管理机制
  • 2.3.4 数据存取方式
  • 2.3.5 其它
  • 2.4 HDFS通用性的研究
  • 2.4.1 小文件的读写
  • 2.4.2 缓存一致性
  • 2.4.3 并发控制
  • 2.4.4 访问的高延时
  • 2.4.5 其它
  • 2.5 典型分布式文件系统
  • 2.5.1 HDFS
  • 2.5.2 Lustre
  • 2.5.3 FastDFS
  • 2.5.4 其它
  • 2.6 本章小结
  • 第三章 HDFS通用性研究与实现
  • 3.1 文件读写流程分析
  • 3.1.1 HDFS读文件
  • 3.1.2 HDFS写文件
  • 3.1.3 HDFS小文件读写性能分析
  • 3.2 HDFS管理界面的实现
  • 3.2.1 HDFS Web访问接口
  • 3.2.2 下载文件
  • 3.2.3 删除文件
  • 3.2.4 上传文件
  • 3.3 HDFS文件系统的挂载
  • 3.3.1 WebDAV+Tomcat挂载方法
  • 3.3.2 fuse-dfs挂载方法
  • 3.3.3 两种方法的比较
  • 3.4 本章小结
  • 第四章 HDFS小文件读写改进与实现
  • 4.1 HDFS小文件读写改进的思路
  • 4.1.1 HDFS SequenceFile文件
  • 4.1.2 seqtool工具
  • 4.2 seqtool工具基本功能的设计与实现
  • 4.2.1 支持普通文件与SequenceFile文件之间的转化
  • 4.2.2 支持归档文件到SequenceFile的转化
  • 4.2.3 支持追加写
  • 4.2.4 支持对文件的压缩
  • 4.3 SequenceFile随机读取的改进与实现
  • 4.3.1 随机读取算法
  • 4.3.2 设计与实现
  • 4.4 seqtool的编译与使用
  • 4.5 本章小结
  • 第五章 系统性能测试
  • 5.1 实验目的
  • 5.2 实验环境和数据
  • 5.3 实验设计及结果分析
  • 5.3.1 文件读写测试
  • 5.3.2 MapReduce测试
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间取得的研究成果
  • 致谢
  • 相关论文文献

    • [1].基于Apache Ftpserver的可自定义文件系统的文件服务器[J]. 软件 2020(07)
    • [2].快速恢复ExFAT文件系统数据[J]. 网络安全和信息化 2019(05)
    • [3].基于机器学习的动态分区并行文件系统性能优化[J]. 集成技术 2020(06)
    • [4].油田设备文件系统数据存储的优化研究与分析[J]. 石化技术 2017(01)
    • [5].云文件系统中纠删码技术的研究与实现[J]. 计算机科学与探索 2013(04)
    • [6].基于虚拟文件系统的安全存储技术的研究[J]. 微电子学与计算机 2013(06)
    • [7].盘点文件系统[J]. 科技信息(科学教研) 2008(18)
    • [8].并行文件系统研究综述[J]. 小型微型计算机系统 2008(09)
    • [9].处理CentOS 7启动错误[J]. 网络安全和信息化 2020(10)
    • [10].分布式文件系统与传统文件系统的比较研究[J]. 电子技术与软件工程 2015(23)
    • [11].基于虚拟文件系统的诱骗主机安全方案研究[J]. 计算机与现代化 2013(02)
    • [12].基于镜像的在线文件系统检查工具的研究与实现[J]. 计算机系统应用 2013(08)
    • [13].海量文件系统中基于特征实现文件多维度浏览[J]. 计算机工程与科学 2017(05)
    • [14].基于堆叠文件系统的云计算存储优化[J]. 计算机工程 2014(12)
    • [15].一种分布式并行文件系统的介绍及在海洋地震数据处理中的应用[J]. 电脑与信息技术 2015(04)
    • [16].对象存储并行文件系统小文件性能优化研究[J]. 计算机工程与科学 2013(12)
    • [17].一种嵌入式实时操作系统高可靠文件系统[J]. 微电子学与计算机 2014(03)
    • [18].一种适用于集群文件系统分级存储的分布式锁设计与分析[J]. 计算机研究与发展 2012(S1)
    • [19].并行文件系统简介及主流产品对比[J]. 邮电设计技术 2012(07)
    • [20].Linux Ext2fs文件系统分析[J]. 电脑知识与技术 2010(17)
    • [21].面向容灾的强安全性虚拟文件系统[J]. 计算机工程 2009(07)
    • [22].蓝鲸集群文件系统中资源交互一致性协议[J]. 计算机工程 2008(11)
    • [23].基于准文件系统的高速大容量数据存储系统设计[J]. 机械与电子 2008(10)
    • [24].一种基于多应用智能卡文件系统的研究与实现[J]. 计算机应用与软件 2014(09)
    • [25].并行文件系统下数据迁移功能的实现[J]. 北京信息科技大学学报(自然科学版) 2012(05)
    • [26].基于文件系统过滤驱动的文档透明加解密系统的研究[J]. 电脑编程技巧与维护 2011(04)
    • [27].面向并行文件系统的性能评估及相对预测模型[J]. 软件学报 2011(09)
    • [28].并行文件系统的应用探讨[J]. 软件 2010(11)
    • [29].基于文件系统过滤驱动的文件加密系统设计[J]. 微电子学与计算机 2009(04)
    • [30].面向云文件系统的隔离性度量方法研究[J]. 计算机工程与科学 2017(07)

    标签:;  ;  

    通用分布式文件系统的研究与改进
    下载Doc文档

    猜你喜欢