论文摘要
为了解决科学和工程领域中具有重大挑战的问题(Grand-challenge problems),使用由普通商品化(Commodity off-the-shelf,COTS)组件建立的通用并行计算机(General-purpose parallel computers)即高性能计算(High-performance Computing,HPC)集群对大规模处理(Massively processing)的并行应用构建原型(Prototype)、调试、运行逐渐替代使用专用,通常是昂贵的超级计算(Supercomputing)平台。然而,不同的应用需要不同的计算环境组合软、硬组件来支撑。因此,针对特定的应用快速、高效地部署和重配置高性能计算平台就变得很重要。本论文开发了一个基于模型的高性能计算集群建模与合成框架以实现高性能计算集群快速自动化部署。在通用建模环境(Generic Modeling Environment,GME)中把高性能计算集群软、硬件组件建模成独立的模型,以实现集群模型在不同操作平台上的重用,应用对象约束语言(Object Constraint Language,OCL)实现集群软件包间的相互依赖关系;通过模型翻译器(Translator)把集群模型翻译成可执行脚本文件(例如Python脚本),用以实现高性能计算集群的安装和配置,并以Perceus集群为实例实现模型设计与实施过程。