论文摘要
当前,随着信息化进程的不断推进,需要存储的各种数据量也不断增加。。数据量的急剧增加给存储系统的设计带来了巨大挑战。以往基于Client/Server的单点集中存储已经不能满足当前的存储需求,与其对应的分布式存储异军突起。在分布式存储中,数据经常是被多副本存储,即一份数据存储多份,目的是提高系统的数据可靠性和可用性。针对多个数据的副本,如何快速的从存储系统中得到所需的数据,已经成为学术界的研究重点。目前主要可以采用两种方式快速获得所需要的数据,一种是采用某种服务器选择算法,选择最优的服务器进行数据的下载。另一种是采用多节点协作的并行下载技术。由于多节点协作的并行下载技术可以充分利用服务器的带宽,避免复杂的服务器选择算法,在存储系统中采用该方法具有明显的优势。本文就存储系统中采用多节点协作并行下载的相关技术进行了研究。本文的主要工作和贡献可归纳为以下几点:1.分析了分布式存储架构,对863项目(新一代业务运行管控协同支撑环境的开发)中采用的存储架构和相关技术进行了研究,分析了在系统中采用并行下载的相关背景。2.分析研究了网络带宽和延时测量的机制,并采用网络测量工具分析了延时、丢包等参数对带宽的影响,而且采用NS2仿真的方式分析研究了TCP流量控制和拥塞控制对带宽的影响。3.分析了常见并行套接字的机制,其中重点分析了流控制传输协议(Stream Control Transmission Protocol:SCTP)的多流和多宿主机制,并利用SCTP的多流机制提出一种改进的FTP的下载方式,并与基于TCP的FTP进行了对比,下载文件时间明显缩短。另外针对并行套接字库Psock采用linux系统调用poll存在的问题,实验分析表明采用epoll代替poll的具有明显的性能优势。4.提出一种基于带宽测量的多节点协作并行下载机制,主要是对文件分块下载时的最后一块采用动态调整的方式,这样可以让多个并行下载流尽可能的同时结束,加快下载速度。另外为了减少服务器端对硬盘的读取,将服务器端缓存加入到了并行下载技术中,实验表明此方法加快了下载速度。