论文摘要
高端容错计算机是指同时具备高性能和高可用特性的高端服务器。高端容错计算机主要面向金融、电信等涉及到国家战略安全的关键领域的计算需求,此类系统的可靠运行直接关系到国家经济安全。高端容错计算机在软件,固件,硬件等多个层次上设计了容错机制,在高端容错计算机研发过程中和投入使用前,必须进行容错性能的测试,一方面对生产厂商提供反馈意见,另一方面对容错性能进行评价。故障注入是评测容错性能最常用,也是最有效的方法。本文对如何运用故障注入方法评测容错性能进行了研究,主要解决故障注入模型的建立和故障注入工具的实现两个问题。以FARM这一经典故障注入模型为理论基础,本文构建了应用于高端容错计算机容错性能评测的故障注入模型,并对故障注入的实验策略进行了说明。在故障模型的指导下,实现了故障集中各种软硬件故障的注入,在应用层,系统层,内核层和驱动层等多个层次设计实现了一系列故障注入工具,形成了容错性能测试工具集。本文针对计算密集型,访存密集型和IO密集型三类典型应用场景,设计实现了3个故障注入工具:基于ptrace的应用进程寄存器故障注入工具,软件实现的物理地址内存故障注入工具,网络设备故障注入工具。这三个故障注入工具分别注入CPU故障、内存故障和IO故障。为了验证本文所实现的故障注入工具的有效性,也为了说明基于故障注入评测容错性能的过程,本文选择了两款安腾架构的高端容错计算机进行故障注入实验,针对Linux IA64、HP-UX和某国产容错操作系统三个操作系统进行了应用进程寄存器故障,应用进程内存故障,系统进程内存故障,内核内存故障和网络设备故障共5类故障注入测试。实验结果表明,本文所设计实现的故障注入工具的有效性,充分暴露了目标系统的各种缺陷与不足,而且能够支持多个架构和操作系统平台。通过对不同服务器和不同操作系统进行实验数据对比分析,能够对各系统的容错性能进行定性评价。