论文摘要
集群技术简单地说就是将一系列计算机通过网络连接起来,共同协调来完成各种需求。集群系统以其高可扩展性、高可用性以及高性价比等优点逐渐成为高性能计算机体系结构的发展趋势。随着集群规模的不断增大,各节点资源的高效管理和状态的及时获取在整个集群系统中起着越来越重要的作用。集群管理系统能够实现集群功能并且管理整个系统,是集群必不可少的软件支持,也是集群技术的集中体现。本文的研究内容是大连市科学技术基金计划项目:新型网络服务器的资源管理与系统状态监控(编号:2005J22JH031)的重要组成部分。在详细分析现有集群系统以及集群管理系统的基础上,本文给出了一个集群管理系统的总体设计方案以及节点管理部分的实现过程。首先针对课题提供的现有硬件条件进行了集群系统结构的总体设计,采用双子网节点连接方式,一个子网用于节点之间的连接,另一子网用于与网络存储设备相连。其次,给出集群管理软件的总体框架。该软件采取向下与操作系统分离、向上提供用户接口的分层结构。管理系统不依赖节点操作系统,功能代码之间保持独立,为软件的可移植性与可扩展性提供了有力的保证。节点管理模块主要实现了集群逻辑结构的建立,节点的动态配置与管理以及节点间通信等功能。本文采用二叉树的节点逻辑结构,根节点的选择采用动态竞争决策过程。一方面保证节点结构的灵活性,支持系统的可扩展性;另一方面利用二叉树“双亲—孩子”的节点关系进行通信大大降低了单节点在通信方面的开销,提高了集群系统的工作效率。有效的克服了根节点故障问题,实现了集群系统对高可用性的要求,保证了集群系统拥有可持续运行的能力。