论文摘要
大型高性能计算机系统在计算流体力学(CFD)中发挥着基础性支撑性作用。目前大型高性能计算机集群以其高性价比成为计算设备的主流。大型高性能计算机集群是本单位主要工程应用设备,承担着生成关键数据的任务。随着CFD任务发展,装备建设速度迅速提高,规模扩大,集群各类故障随之增加。受人员少工作多节奏慢等客观情况影响,原有的巡查故障模式,即远程检查->现场检查->发现故障->处理故障,不能及时发现和排除各类故障,客观导致恢复系统正常运行速度较慢,目前这种情况已成为制约计算任务按时间节点按要求顺利完成的关键性瓶颈之一。管理团队认为,要摆脱被动处理故障多发现状,必须组织开发运行一套系统,主要目标就是为了解决目前人工巡查和故障频发之间难以调和的矛盾。本文讨论的是基于某单位的大型高性能计算机集群故障快速诊断与自动恢复系统开发。论文通过分析目前某单位大型高性能计算机集群故障主要包括两大类型:硬件故障和软件故障,故障发现与排除受人工因素影响的现状,由于计算任务的迫切需求,提出了一个集群故障快速诊断与自动恢复的解决方案。方案采用基于快速原型法模式和模块化设计方法,在主要基于linux的系统框架上实现,采用三层结构,构建五大功能模块,使用宽度优先搜索算法,运用Client/Server模式,目标是使故障巡查主动化、故障报警快速化,能使部分故障恢复实现自动化,使得开发故障诊断和恢复系统相对简单,同时注重系统的开放性和组件开发模式的通用性,保证具有扩展能力。论文首先介绍CFD与大型高性能计算机集群的基本概念、特征和关系,并阐明开发大型计算机集群故障快速诊断与自动恢复系统的重要现实意义,然后重点介绍了系统的设计与实现。设计部分从集群故障处理的基本流程、系统实现目标和系统分析着手,提出系统的总体设计方案,详细说明了集群基本状态自动监测、典型应用问题监测、典型故障自动恢复、事件记录和事件报警子系统的功能设计和实现细节,介绍系统的测试方法和测试结论,最后说明了系统应用情况。
论文目录
相关论文文献
- [1].2018年中国高性能计算机发展现状分析[J]. 计算机工程与科学 2018(12)
- [2].2017年中国高性能计算机发展现状分析[J]. 计算机工程与科学 2017(12)
- [3].中国高性能计算机发展现状分析与展望[J]. 民主与科学 2017(04)
- [4].高性能计算机 智慧城市的加速器[J]. 科学新闻 2014(12)
- [5].谭光明 无限“曙光”在险峰[J]. 中华儿女 2020(10)
- [6].曙光公司总裁历军 高性能计算机将助力“中国制造”转型升级[J]. 中国经济周刊 2013(50)
- [7].谈谈高性能计算机对数值天气预报发展的重要技术支撑作用[J]. 科研信息化技术与应用 2010(04)
- [8].2018年中国高性能计算机发展现状分析与展望[J]. 计算机科学 2019(01)
- [9].高性能计算机发展及应用探讨[J]. 工程技术研究 2019(09)
- [10].基于大数据处理的高性能计算机研究与发展[J]. 电脑与信息技术 2019(04)
- [11].2017年中国高性能计算机发展现状分析与展望[J]. 科研信息化技术与应用 2018(01)
- [12].中国E级高性能计算机原型系统正式进入研制阶段[J]. 海峡科技与产业 2016(12)
- [13].美国高性能计算发展分析[J]. 上海信息化 2017(01)
- [14].新一代个人高性能计算机即将问世[J]. 中国教育网络 2010(06)
- [15].高性能计算机记账系统的设计和实现[J]. 中国教育网络 2008(01)
- [16].小型高性能计算机集群成功组建的研究[J]. 科技信息 2013(18)
- [17].高性能计算机技术研究现状[J]. 电子制作 2013(15)
- [18].论新一代高性能计算机网络[J]. 计算机光盘软件与应用 2012(20)
- [19].我国研制成功超千万亿次高性能计算机"星云"[J]. 企业技术开发 2010(11)
- [20].抗恶劣环境高性能计算机[J]. 计算机工程 2008(S1)
- [21].高性能计算机耗电严重 我国拟出台节能标淮[J]. 福建质量信息 2008(02)
- [22].我国百万亿次超高性能计算机落户上海[J]. 航天器工程 2008(04)
- [23].高性能计算专题前言[J]. 计算机科学 2020(08)
- [24].高性能计算机群的信息安全[J]. 航空制造技术 2014(18)
- [25].基于"龙芯3B"的万亿次高性能计算机研制成功[J]. 机电工程技术 2013(01)
- [26].德国投资2600万欧元建造高性能计算机[J]. 航天器工程 2012(05)
- [27].我国推进高性能计算机服务器标准制定[J]. 机械 2010(03)
- [28].我国首台基于“龙芯3a”高性能计算机近日诞生[J]. 硅谷 2010(10)
- [29].我国首台万亿次高性能计算机“龙芯”问世[J]. 安徽科技 2010(05)
- [30].我国推进高性能计算机服务器标准制定[J]. 信息技术与标准化 2010(03)
标签:大型高性能计算机集群论文; 故障论文; 诊断论文; 恢复论文;