论文摘要
随着并行计算机体系结构和半导体工艺技术的发展,高性能计算机(HPC)的计算速度已经达到千万亿次量级[1],对应的外围存储容量达到PB量级。以当今单磁盘容量最大为1TB计算,总容量为PB的外围存储系统中的磁盘数量将达到千个的量级。磁盘是机电磁一体的设备,厂家标称的平均无故障工作时间一般在十万小时左右,但实际使用过程中故障率较高,可靠性远低于CPU、主存等纯电子部件。因此,对于高性能计算机系统,磁盘存储系统的可靠性在很大程度上决定了整个系统的可靠性。当前存储系统通过RAID技术提高性能和可靠性。但是目前通用的RAID系统单盘故障时,系统将进行数据重构,这使读数据的时间增加,同时限制了写操作。若两个或者两个以上的磁盘同时故障,则可能导致数据损坏,无法恢复,对核心数据这将是灾难性的损坏。根据在美国加州大学进行的伯克利Tertiary Disk系统项目的统计,部件在故障之前的很长一段时间就会有不正常的情况出现,磁盘故障也是一个渐变的过程。本课题分析了磁盘可靠性工作状态的渐变过程,研究了可监测的磁盘工作参数对磁盘可能发生故障的预警方法和提前替换工作状态不正常的磁盘的方法,以及对被预警故障磁盘实现对用户透明处理的方法,即研究了磁盘故障的自修复技术,以大幅度提高系统的可靠性。采用单层RAID结构存储系统的可靠性处决于单个RAID控制器采用的单层容错处理技术,通常是容许1个磁盘故障,可靠性不高。多层RAID结构通过对RAID结构进行组织,实现数据的二维存储和访问,通过冗余校验信息进一步提高系统的可靠性,同时可以成倍提高存储系统的传输速率,如达到GB/s的量级。本文主要围绕提高基于RAID的存储系统的可靠性和性能,研究磁盘存储系统的自修复技术来提高可靠性,研究基于自修复磁盘阵列的多层RAID结构技术来提高性能。主要的工作和创新点如下:1.通过量化分析磁盘存储系统中不同功能部件出现故障的概率,说明磁盘设备的可靠性是影响整个存储系统可靠性的主要因素。磁盘故障引起的系统整体故障约占整个系统故障的50%。根据可靠性的层次定义和磁盘工作原理,给出了磁盘的故障树模型。2.提出了单盘状态监测的T2US(Time, Temperature, Utilization and S.M.A.R.T attribute)算法和磁盘无故障运行时间的依概率分布算法。对磁盘可能的故障进行预测是研究磁盘存储系统故障自动修复技术的重要基础。T2US算法主要包括运行环境质量判定和当前状态相容性判定两部分。环境质量判断根据磁盘故障树选定环境变量采用阀值判断;状态相容性判定则由根据统计结果总结的基于磁盘S.M.A.R.T(Self-Monitoring,Analysis and Reporting Technology)技术获得的状态参数组成状态集,采用扩展的自学习算法(Extra-SLA)判定,给出单盘状态预测的变量的定量标准,根据统计结果推测,在通常情况下可以提前预测45%52%的单盘故障。3.基于单盘状态监测和数据调度的自修复磁盘阵列RAID 5T结构和数据分布算法的设计和实现。基于磁盘运行状态的监测,设计了支持故障数据实时响应的TRDP(T2US Redeployment Policy)数据迁移和磁盘重组策略,实现了对单个磁盘故障引起的开销的屏蔽,容许一个磁盘故障或两个预测将要失效的磁盘的准故障。4.为了实现高性能的数据存储和访问,采用通用的计算机部件构建了RAID 6(4)/5T(8)阵列,实现数据平面存储和校验。RAID6编码结果作为下层RAID 5T阵列的数据源,重新生成校验信息,进一步提高可靠性,整个阵列结构可冗余6个磁盘故障。
论文目录
相关论文文献
标签:磁盘故障树模型论文; 磁盘状态监测算法论文; 自修复技术论文; 多层结构论文;