分布式存储系统中并行下载相关技术研究

分布式存储系统中并行下载相关技术研究

论文摘要

当前,随着信息化进程的不断推进,需要存储的各种数据量也不断增加。。数据量的急剧增加给存储系统的设计带来了巨大挑战。以往基于Client/Server的单点集中存储已经不能满足当前的存储需求,与其对应的分布式存储异军突起。在分布式存储中,数据经常是被多副本存储,即一份数据存储多份,目的是提高系统的数据可靠性和可用性。针对多个数据的副本,如何快速的从存储系统中得到所需的数据,已经成为学术界的研究重点。目前主要可以采用两种方式快速获得所需要的数据,一种是采用某种服务器选择算法,选择最优的服务器进行数据的下载。另一种是采用多节点协作的并行下载技术。由于多节点协作的并行下载技术可以充分利用服务器的带宽,避免复杂的服务器选择算法,在存储系统中采用该方法具有明显的优势。本文就存储系统中采用多节点协作并行下载的相关技术进行了研究。本文的主要工作和贡献可归纳为以下几点:1.分析了分布式存储架构,对863项目(新一代业务运行管控协同支撑环境的开发)中采用的存储架构和相关技术进行了研究,分析了在系统中采用并行下载的相关背景。2.分析研究了网络带宽和延时测量的机制,并采用网络测量工具分析了延时、丢包等参数对带宽的影响,而且采用NS2仿真的方式分析研究了TCP流量控制和拥塞控制对带宽的影响。3.分析了常见并行套接字的机制,其中重点分析了流控制传输协议(Stream Control Transmission Protocol:SCTP)的多流和多宿主机制,并利用SCTP的多流机制提出一种改进的FTP的下载方式,并与基于TCP的FTP进行了对比,下载文件时间明显缩短。另外针对并行套接字库Psock采用linux系统调用poll存在的问题,实验分析表明采用epoll代替poll的具有明显的性能优势。4.提出一种基于带宽测量的多节点协作并行下载机制,主要是对文件分块下载时的最后一块采用动态调整的方式,这样可以让多个并行下载流尽可能的同时结束,加快下载速度。另外为了减少服务器端对硬盘的读取,将服务器端缓存加入到了并行下载技术中,实验表明此方法加快了下载速度。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.2.1 分布式存储技术
  • 1.2.2 并行下载技术
  • 1.3 研究内容和方法
  • 1.4 论文架构与安排
  • 第2章 分布式存储技术
  • 2.1 分布式存储整体架构
  • 2.1.1 典型的体系结构
  • 2.1.2 Landhouse 的体系结构
  • 2.2 存储系统中的并行下载机制
  • 2.2.1 文件分块问题
  • 2.2.2 数据块恢复问题
  • 2.2.3 NRAID 的读写过程
  • 2.3 本章小结
  • 第3章 网络带宽与延时的研究
  • 3.1 网络带宽与延时测量相关术语
  • 3.2 网络带宽测量研究
  • 3.3 网络延时测量研究
  • 3.4 TCP 流量控制和拥塞控制对带宽的影响
  • 3.5 实验分析
  • 3.6 本章小结
  • 第4章 并行套接字机制研究
  • 4.1 并行套接字(parallel socket)机制
  • 4.2 常见并行套接字机制分析
  • 4.3 本章小结
  • 第5章 并行下载调度机制
  • 5.1 并行下载调度的理论基础
  • 5.2 基于带宽测量的并行下载调度模型设计
  • 5.2.1 并行下载
  • 5.2.2 服务器端缓存
  • 5.2.3 带有服务器端缓存的并行下载机制
  • 5.3 本章小结
  • 第6章 总结与展望
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的其他研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    分布式存储系统中并行下载相关技术研究
    下载Doc文档

    猜你喜欢