论文摘要
在信息化飞速发展的今天,信息的不断膨胀导致分布式文件系的应用越来越宽泛,其中HDFS因其良好的扩展性,容错性和开源性得到业界的广泛关注。但其设计由于是仿照GFS,因此主要是为搜索引擎应用而优化的,要将其应用到其它领域需要进一步的研究和改进。尽管在搜索引擎中文件多是以大数据集的方式出现,但是在其它很多应用中,大量小文件的访问是很普遍的。而HDFS在大量小文件的访问上性能非常的低,尽管HDFS有很多优秀的特性,但小文件访问的低效性还是限制了其应用范围。目前解决HDFS小文件问题最有效最可行的方法就是将小文件集中转化为Sequencefile文件,然后对小文件的处理转化为对Sequencefile文件的处理。在以上前提下,本文设计并实现了seqtool转化工具。该工具可以高效地将大量小文件直接转化为Sequencefile文件;同时由于小文件通常是以归档文件的形式存在,因此该工具同样支持归档文件到Sequencefile文件的直接转化;为满足应用的追加写需求,该工具还支持对Sequencefile文件的追加写;最后该工具还支持对小文件在Sequencefile内进行不同层次的压缩以节省空间。同时本文还实现了Sequencefile的高效随机读取,通过为Sequencefile文件引入了一个附加的元数据文件,里面记录的是每个小文件所在的位置,这样通过读取该文件,并使用字典树加二级索引的算法构造查询数据结构,可以高效的实现在Sequencefile中对小文件的随机读取。除此之外本文还实现了HDFS的Web管理界面,实现了查看,删除,上传,下载等文件管理的基本功能。最后,本文对使用Sequencefile文件代替大量小文件的效果进行了性能测试与比较。对于批量直接读写小文件和使用Sequencefile来代替,性能差距是非常明显的,Sequencefile有着良好的性能优势,同时由于改善了Sequencefile的随机读取效率,因此Sequencefile在随机读取测试中的性能优势也十分明显。最后针对WordCount的MapReduce任务进行测试,Sequencefile的性能优势同样十分明显。
论文目录
相关论文文献
- [1].基于Apache Ftpserver的可自定义文件系统的文件服务器[J]. 软件 2020(07)
- [2].快速恢复ExFAT文件系统数据[J]. 网络安全和信息化 2019(05)
- [3].基于机器学习的动态分区并行文件系统性能优化[J]. 集成技术 2020(06)
- [4].油田设备文件系统数据存储的优化研究与分析[J]. 石化技术 2017(01)
- [5].云文件系统中纠删码技术的研究与实现[J]. 计算机科学与探索 2013(04)
- [6].基于虚拟文件系统的安全存储技术的研究[J]. 微电子学与计算机 2013(06)
- [7].盘点文件系统[J]. 科技信息(科学教研) 2008(18)
- [8].并行文件系统研究综述[J]. 小型微型计算机系统 2008(09)
- [9].处理CentOS 7启动错误[J]. 网络安全和信息化 2020(10)
- [10].分布式文件系统与传统文件系统的比较研究[J]. 电子技术与软件工程 2015(23)
- [11].基于虚拟文件系统的诱骗主机安全方案研究[J]. 计算机与现代化 2013(02)
- [12].基于镜像的在线文件系统检查工具的研究与实现[J]. 计算机系统应用 2013(08)
- [13].海量文件系统中基于特征实现文件多维度浏览[J]. 计算机工程与科学 2017(05)
- [14].基于堆叠文件系统的云计算存储优化[J]. 计算机工程 2014(12)
- [15].一种分布式并行文件系统的介绍及在海洋地震数据处理中的应用[J]. 电脑与信息技术 2015(04)
- [16].对象存储并行文件系统小文件性能优化研究[J]. 计算机工程与科学 2013(12)
- [17].一种嵌入式实时操作系统高可靠文件系统[J]. 微电子学与计算机 2014(03)
- [18].一种适用于集群文件系统分级存储的分布式锁设计与分析[J]. 计算机研究与发展 2012(S1)
- [19].并行文件系统简介及主流产品对比[J]. 邮电设计技术 2012(07)
- [20].Linux Ext2fs文件系统分析[J]. 电脑知识与技术 2010(17)
- [21].面向容灾的强安全性虚拟文件系统[J]. 计算机工程 2009(07)
- [22].蓝鲸集群文件系统中资源交互一致性协议[J]. 计算机工程 2008(11)
- [23].基于准文件系统的高速大容量数据存储系统设计[J]. 机械与电子 2008(10)
- [24].一种基于多应用智能卡文件系统的研究与实现[J]. 计算机应用与软件 2014(09)
- [25].并行文件系统下数据迁移功能的实现[J]. 北京信息科技大学学报(自然科学版) 2012(05)
- [26].基于文件系统过滤驱动的文档透明加解密系统的研究[J]. 电脑编程技巧与维护 2011(04)
- [27].面向并行文件系统的性能评估及相对预测模型[J]. 软件学报 2011(09)
- [28].并行文件系统的应用探讨[J]. 软件 2010(11)
- [29].基于文件系统过滤驱动的文件加密系统设计[J]. 微电子学与计算机 2009(04)
- [30].面向云文件系统的隔离性度量方法研究[J]. 计算机工程与科学 2017(07)