高性能磁盘阵列自修复技术研究

论文摘要

随着并行计算机体系结构和半导体工艺技术的发展,高性能计算机（HPC）的计算速度已经达到千万亿次量级[1],对应的外围存储容量达到PB量级。以当今单磁盘容量最大为1TB计算,总容量为PB的外围存储系统中的磁盘数量将达到千个的量级。磁盘是机电磁一体的设备,厂家标称的平均无故障工作时间一般在十万小时左右,但实际使用过程中故障率较高,可靠性远低于CPU、主存等纯电子部件。因此,对于高性能计算机系统,磁盘存储系统的可靠性在很大程度上决定了整个系统的可靠性。当前存储系统通过RAID技术提高性能和可靠性。但是目前通用的RAID系统单盘故障时,系统将进行数据重构,这使读数据的时间增加,同时限制了写操作。若两个或者两个以上的磁盘同时故障,则可能导致数据损坏,无法恢复,对核心数据这将是灾难性的损坏。根据在美国加州大学进行的伯克利Tertiary Disk系统项目的统计,部件在故障之前的很长一段时间就会有不正常的情况出现,磁盘故障也是一个渐变的过程。本课题分析了磁盘可靠性工作状态的渐变过程,研究了可监测的磁盘工作参数对磁盘可能发生故障的预警方法和提前替换工作状态不正常的磁盘的方法,以及对被预警故障磁盘实现对用户透明处理的方法,即研究了磁盘故障的自修复技术,以大幅度提高系统的可靠性。采用单层RAID结构存储系统的可靠性处决于单个RAID控制器采用的单层容错处理技术,通常是容许1个磁盘故障,可靠性不高。多层RAID结构通过对RAID结构进行组织,实现数据的二维存储和访问,通过冗余校验信息进一步提高系统的可靠性,同时可以成倍提高存储系统的传输速率,如达到GB/s的量级。本文主要围绕提高基于RAID的存储系统的可靠性和性能,研究磁盘存储系统的自修复技术来提高可靠性,研究基于自修复磁盘阵列的多层RAID结构技术来提高性能。主要的工作和创新点如下:1.通过量化分析磁盘存储系统中不同功能部件出现故障的概率,说明磁盘设备的可靠性是影响整个存储系统可靠性的主要因素。磁盘故障引起的系统整体故障约占整个系统故障的50%。根据可靠性的层次定义和磁盘工作原理,给出了磁盘的故障树模型。2.提出了单盘状态监测的T2US（Time, Temperature, Utilization and S.M.A.R.T attribute）算法和磁盘无故障运行时间的依概率分布算法。对磁盘可能的故障进行预测是研究磁盘存储系统故障自动修复技术的重要基础。T2US算法主要包括运行环境质量判定和当前状态相容性判定两部分。环境质量判断根据磁盘故障树选定环境变量采用阀值判断;状态相容性判定则由根据统计结果总结的基于磁盘S.M.A.R.T（Self-Monitoring,Analysis and Reporting Technology）技术获得的状态参数组成状态集,采用扩展的自学习算法（Extra-SLA）判定,给出单盘状态预测的变量的定量标准,根据统计结果推测,在通常情况下可以提前预测45%52%的单盘故障。3.基于单盘状态监测和数据调度的自修复磁盘阵列RAID 5T结构和数据分布算法的设计和实现。基于磁盘运行状态的监测,设计了支持故障数据实时响应的TRDP（T2US Redeployment Policy）数据迁移和磁盘重组策略,实现了对单个磁盘故障引起的开销的屏蔽,容许一个磁盘故障或两个预测将要失效的磁盘的准故障。4.为了实现高性能的数据存储和访问,采用通用的计算机部件构建了RAID 6（4）/5T（8）阵列,实现数据平面存储和校验。RAID6编码结果作为下层RAID 5T阵列的数据源,重新生成校验信息,进一步提高可靠性,整个阵列结构可冗余6个磁盘故障。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 课题背景

1.2 国内外研究现状

1.2.1 S.M.A.R.T 技术研究和应用

1.2.2 自修复磁盘阵列

1.2.3 多层RAID 结构

1.3 课题主要研究内容和创新

1.4 论文组织结构

第二章磁盘故障模型

2.1 磁盘存储系统构成

2.1.1 磁盘存储系统结构

2.1.2 磁盘存储系统故障分布

2.1.3 磁盘可靠性与存储系统故障的关系

2.2 磁盘故障树模型

2.2.1 自底向上磁盘故障树模型

2.2.2 自顶向下故障树模型

2.2.3 磁盘故障分类

2.3 影响磁盘可靠性的因素

2.4 章节小结

第三章基于状态监测的磁盘故障预测算法

3.1 磁盘状态监测算法

3.1.1 磁盘状态监测算法的现状

3.1.2 磁盘状态监测算法的原理

3.1.3 基于S.M.A.R.T 属性信息的状态监测流程

3.2 磁盘状态监测属性选择

3.2.1 环境属性选择

3.2.2 S.M.A.R.T 技术属性参数的选择

2SU 算法'>3.3 T²SU 算法

2SU 算法流程'>3.3.1 T²SU 算法流程

3.3.2 磁盘状态相容性的自学习判定算法

3.3.3 磁盘无故障运行时间预测

3.4 单磁盘工作状态的预测

2US 预测算法环境质量判定'>3.4.1 T²US 预测算法环境质量判定

3.4.2 状态相容性判定流程

2SU 算法预测结果等级化分类'>3.4.3 T²SU 算法预测结果等级化分类

3.5 本章小结

第四章自修复磁盘阵列RAID 5T 的设计

4.1 磁盘阵列类型及研究现状

4.2 自修复磁盘阵列RAID 5T

4.2.1 RAID 5T 物理结构

4.2.2 RAID 5T 数据分布

4.2.3 RAID 5T 数据迁移及磁盘失效迁移策略

4.3 RAID 5T 自修复效果分析

4.4 本章小结

第五章多层RAID 结构

5.1 硬件结构

5.1.1 多层RAID 系统结构

5.1.2 数据流程

5.2 系统数据分布

5.2.1 RAID 6 编码实现

5.2.2 Liberation 数据生成算法流程

5.2.3 系统数据分布

5.3 本章小结

第六章试验及模拟结果

6.1 可靠性系数

6.1.1 可靠性系数定义

6.1.2 可靠性系数应用实例

6.2 系统可靠性分析

6.3 磁盘状态监测

6.4 RAID 5T 可靠性分析

6.5 多层RAID 模拟结果

6.5.1 数据分布过程模拟

6.5.2 系统可靠性

第七章结束语

7.1 工作总结

7.2 工作展望

致谢

参考文献

作者在学期间取得的学术成果

高性能磁盘阵列自修复技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢