大型高性能计算机集群故障快速诊断与自动恢复系统开发

大型高性能计算机集群故障快速诊断与自动恢复系统开发

论文摘要

大型高性能计算机系统在计算流体力学(CFD)中发挥着基础性支撑性作用。目前大型高性能计算机集群以其高性价比成为计算设备的主流。大型高性能计算机集群是本单位主要工程应用设备,承担着生成关键数据的任务。随着CFD任务发展,装备建设速度迅速提高,规模扩大,集群各类故障随之增加。受人员少工作多节奏慢等客观情况影响,原有的巡查故障模式,即远程检查->现场检查->发现故障->处理故障,不能及时发现和排除各类故障,客观导致恢复系统正常运行速度较慢,目前这种情况已成为制约计算任务按时间节点按要求顺利完成的关键性瓶颈之一。管理团队认为,要摆脱被动处理故障多发现状,必须组织开发运行一套系统,主要目标就是为了解决目前人工巡查和故障频发之间难以调和的矛盾。本文讨论的是基于某单位的大型高性能计算机集群故障快速诊断与自动恢复系统开发。论文通过分析目前某单位大型高性能计算机集群故障主要包括两大类型:硬件故障和软件故障,故障发现与排除受人工因素影响的现状,由于计算任务的迫切需求,提出了一个集群故障快速诊断与自动恢复的解决方案。方案采用基于快速原型法模式和模块化设计方法,在主要基于linux的系统框架上实现,采用三层结构,构建五大功能模块,使用宽度优先搜索算法,运用Client/Server模式,目标是使故障巡查主动化、故障报警快速化,能使部分故障恢复实现自动化,使得开发故障诊断和恢复系统相对简单,同时注重系统的开放性和组件开发模式的通用性,保证具有扩展能力。论文首先介绍CFD与大型高性能计算机集群的基本概念、特征和关系,并阐明开发大型计算机集群故障快速诊断与自动恢复系统的重要现实意义,然后重点介绍了系统的设计与实现。设计部分从集群故障处理的基本流程、系统实现目标和系统分析着手,提出系统的总体设计方案,详细说明了集群基本状态自动监测、典型应用问题监测、典型故障自动恢复、事件记录和事件报警子系统的功能设计和实现细节,介绍系统的测试方法和测试结论,最后说明了系统应用情况。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 CFD 与大型高性能计算机集群简介
  • 1.1.1 CFD 概念和作用
  • 1.1.2 大型高性能计算机集群概念和作用
  • 1.2 大型高性能计算机集群在CFD 中的应用现状和意义
  • 1.2.1 大型高性能计算机集群在CFD 中的应用现状
  • 1.2.2 建设发展大型高性能计算机集群的意义
  • 1.3 开发大型高性能计算机集群故障快速诊断与自动恢复系统的意义
  • 1.4 本文所研究的主要问题及章节安排
  • 第二章 系统相关技术
  • 2.1 快速原型法概述
  • 2.1.1 快速原型法特点
  • 2.1.2 快速原型法工作流程
  • 2.2 模块化设计
  • 2.2.1 模块化设计简介
  • 2.2.2 模块化设计优点
  • 2.3 Shell
  • 2.4 C 与 Socket
  • 2.5 本章小结
  • 第三章 系统分析
  • 3.1 需求分析
  • 3.1.1 项目背景
  • 3.1.2 系统实现目标
  • 3.2 业务流程分析
  • 3.3 系统数据流程分析
  • 3.4 系统运行环境
  • 3.5 系统开发环境
  • 3.5.1 后台数据库
  • 3.5.2 开发环境
  • 3.6 本章小结
  • 第四章 系统设计
  • 4.1 系统模块划分
  • 4.2 系统模块设计
  • 4.2.1 集群基本状态自动监测模块功能设计
  • 4.2.2 典型应用问题监测模块功能设计
  • 4.2.3 典型故障自动恢复模块功能设计
  • 4.2.4 事件记录模块功能设计
  • 4.2.5 事件报警模块功能设计
  • 4.3 数据结构设计
  • 4.3.1 数据结构设计原则
  • 4.3.2 数据结构的设计
  • 4.3.2.1 故障编码设计
  • 4.3.2.2 关键配置和系统相关文件
  • 4.4 本章小结
  • 第五章 系统实现
  • 5.1 集群基本状态自动监测模块的实现
  • 5.1.1 ping 测试脚本achkping 简化流程
  • 5.1.2 ssh 测试脚本achkssh 简化流程
  • 5.1.3 mount 测试脚本achkmount 简化流程
  • 5.1.4 lsf 测试脚本achklsf 简化流程
  • 5.2 典型应用问题监测模块的实现
  • 5.3 典型故障自动恢复模块的实现
  • 5.4 事件记录模块的实现
  • 5.5 事件报警模块的实现
  • 5.5.1 报告显示脚本介绍
  • 5.5.2 到客户端的文件通信实现方法
  • 5.6 系统程序执行结果图
  • 5.7 本章小结
  • 第六章 系统测试
  • 6.1 测试环境
  • 6.2 测试计划
  • 6.3 测试过程
  • 6.3.1 界面测试
  • 6.3.2 集成测试
  • 6.3.3 功能测试
  • 6.3.4 性能测试
  • 6.3.5 安全性测试
  • 6.4 测试结果
  • 6.5 本章小结
  • 第七章 结论与总结
  • 7.1 本文主要工作总结
  • 7.2 下一步工作和展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].2018年中国高性能计算机发展现状分析[J]. 计算机工程与科学 2018(12)
    • [2].2017年中国高性能计算机发展现状分析[J]. 计算机工程与科学 2017(12)
    • [3].中国高性能计算机发展现状分析与展望[J]. 民主与科学 2017(04)
    • [4].高性能计算机 智慧城市的加速器[J]. 科学新闻 2014(12)
    • [5].谭光明 无限“曙光”在险峰[J]. 中华儿女 2020(10)
    • [6].曙光公司总裁历军 高性能计算机将助力“中国制造”转型升级[J]. 中国经济周刊 2013(50)
    • [7].谈谈高性能计算机对数值天气预报发展的重要技术支撑作用[J]. 科研信息化技术与应用 2010(04)
    • [8].2018年中国高性能计算机发展现状分析与展望[J]. 计算机科学 2019(01)
    • [9].高性能计算机发展及应用探讨[J]. 工程技术研究 2019(09)
    • [10].基于大数据处理的高性能计算机研究与发展[J]. 电脑与信息技术 2019(04)
    • [11].2017年中国高性能计算机发展现状分析与展望[J]. 科研信息化技术与应用 2018(01)
    • [12].中国E级高性能计算机原型系统正式进入研制阶段[J]. 海峡科技与产业 2016(12)
    • [13].美国高性能计算发展分析[J]. 上海信息化 2017(01)
    • [14].新一代个人高性能计算机即将问世[J]. 中国教育网络 2010(06)
    • [15].高性能计算机记账系统的设计和实现[J]. 中国教育网络 2008(01)
    • [16].小型高性能计算机集群成功组建的研究[J]. 科技信息 2013(18)
    • [17].高性能计算机技术研究现状[J]. 电子制作 2013(15)
    • [18].论新一代高性能计算机网络[J]. 计算机光盘软件与应用 2012(20)
    • [19].我国研制成功超千万亿次高性能计算机"星云"[J]. 企业技术开发 2010(11)
    • [20].抗恶劣环境高性能计算机[J]. 计算机工程 2008(S1)
    • [21].高性能计算机耗电严重 我国拟出台节能标淮[J]. 福建质量信息 2008(02)
    • [22].我国百万亿次超高性能计算机落户上海[J]. 航天器工程 2008(04)
    • [23].高性能计算专题前言[J]. 计算机科学 2020(08)
    • [24].高性能计算机群的信息安全[J]. 航空制造技术 2014(18)
    • [25].基于"龙芯3B"的万亿次高性能计算机研制成功[J]. 机电工程技术 2013(01)
    • [26].德国投资2600万欧元建造高性能计算机[J]. 航天器工程 2012(05)
    • [27].我国推进高性能计算机服务器标准制定[J]. 机械 2010(03)
    • [28].我国首台基于“龙芯3a”高性能计算机近日诞生[J]. 硅谷 2010(10)
    • [29].我国首台万亿次高性能计算机“龙芯”问世[J]. 安徽科技 2010(05)
    • [30].我国推进高性能计算机服务器标准制定[J]. 信息技术与标准化 2010(03)

    标签:;  ;  ;  ;  

    大型高性能计算机集群故障快速诊断与自动恢复系统开发
    下载Doc文档

    猜你喜欢