面向应用的集群资源管理系统设计与实现

面向应用的集群资源管理系统设计与实现

论文摘要

近些年来,人们对计算机处理性能的要求越来越高,单个服务器已经逐渐不能满足用户的需求,而超级计算机的价格非常昂贵,相比之下,集群系统具有高性价比、高可用性、高扩展性的特点,因此逐渐成为了高性能计算的主流。集群系统是通过高速网络互连起来的一组计算机,它们作为一个整体为用户提供应用服务。石油勘探就是一个需要进行海量数据处理的行业,具有计算数据量大,算法复杂的特点,对高性能计算的需求也是与日俱增。集群资源管理系统的主要任务是对集群中的各种资源进行统筹管理,通过提高系统资源利用率使系统达到更高的性能。本文所研究的集群资源管理系统是川庆石油物探公司地震数据处理解释系统的关键支撑系统,为针对地震数据处理特点开发的专用系统。本系统根据用户需求对集群资源进行统一管理,通过对用户提交作业的合理分配,使系统资源得到高效利用,从而提高系统的工作效率。本系统主要实现了以下功能:(1)实现了对服务器与计算节点中资源对象的管理。服务器对整个集群系统中所有计算资源进行统一管理,包含集群中所有的节点信息与作业信息;计算节点对此节点上的计算资源进行管理,包含此节点上的资源信息与作业信息。(2)根据地震数据处理的特点和实际项目中的软硬件需求,在通用调度算法基础上设计出了适合本系统的调度策略。为了方便调度算法的替换和降低服务器对各种请求的响应时间,本系统将服务器对象管理进程和调度进程分开进行设计,实现了多种作业调度算法,并考虑了系统间的负载均衡与资源预留策略。(3)为了保证系统持续、可靠地提供服务,减少由于集群中服务器或计算节点故障而造成的损失,设计并实现了服务器的双机热备功能及节点的故障处理功能,完成了服务器重要数据的备份与恢复工作和故障节点上未完成作业的转移。本系统采用了客户端/服务器设计模型,客户端只需要同服务器进行通信,服务器对整个集群资源进行统一管理。在驱动模式上采用了事件驱动模式,集群中各节点的运行取决于所收到的事件消息,同时为了方便系统的升级,系统设计中考虑了减少各模块间的耦合性。

论文目录

  • 摘要
  • ABSTRACT
  • 图目录
  • 表目录
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究现状及发展态势
  • 1.3 本文主要研究内容
  • 1.4 本文章节安排
  • 第二章 集群资源管理系统设计
  • 2.1 概述
  • 2.2 系统设计
  • 2.2.1 服务器管理
  • 2.2.2 计算节点管理
  • 2.2.3 客户端管理
  • 2.3 系统进程间通信简介
  • 2.3.1 通信消息设计
  • 2.3.2 节点间数据传递
  • 第三章 集群资源管理
  • 3.1 概述
  • 3.2 服务器资源管理
  • 3.2.1 集群节点管理
  • 3.2.2 集群作业管理
  • 3.3 节点资源管理
  • 3.3.1 节点作业管理
  • 3.3.2 节点资源管理
  • 3.4 节点间的资源传递
  • 3.5 实验及效果展示
  • 3.5.1 节点资源查看
  • 3.5.2 作业信息查询
  • 第四章 集群作业调度与执行控制
  • 4.1 调度策略原则与目标
  • 4.2 作业调度设计
  • 4.2.1 流程设计
  • 4.2.2 作业调度周期启动与结束
  • 4.2.3 系统负载均衡
  • 4.2.4 资源预留策略
  • 4.3 调度算法实现
  • 4.3.1 FCFS调度算法
  • 4.3.2 优先级调度算法
  • 4.3.3 短作业优先法
  • 4.3.4 最高响应比优先法
  • 4.3.5 Backfill调度算法
  • 4.4 作业执行控制研究
  • 4.4.1 作业执行控制概述
  • 4.4.2 单通道作业执行控制
  • 4.4.3 多通道作业执行控制
  • 4.5 实验及效果展示
  • 4.5.1 作业执行控制实验
  • 4.5.2 作业调度算法实验
  • 第五章 系统灾难恢复
  • 5.1 方案总述
  • 5.2 双机热备系统设计与实现
  • 5.2.1 双机备份架构设计
  • 5.2.2 心跳策略
  • 5.2.3 服务器间工作接管策略
  • 5.2.4 服务器状态的保存与读取
  • 5.3 节点故障处理
  • 5.3.1 节点健康检测
  • 5.3.2 故障节点的处理
  • 5.4 实验及效果展示
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 个人简历
  • 攻硕期间取得的研究成果
  • 攻硕期间参加的科研项目
  • 相关论文文献

    • [1].曙光5000A高效能计算节点的设计与实现[J]. 计算机工程 2009(06)
    • [2].一种基于健康管理的高可用系统设计与实现[J]. 舰船电子工程 2016(03)
    • [3].分散计算:技术、应用与挑战[J]. 计算机科学与探索 2020(05)
    • [4].基于点群聚类的云数据中心计算节点选择与推介[J]. 东莞理工学院学报 2018(03)
    • [5].云计算中任务分配研究[J]. 信息技术 2017(09)
    • [6].一种基于任务响应时间预测的网格调度算法的研究[J]. 计算机工程与应用 2008(01)
    • [7].基于OpenStack的天文台站计算节点自动管理研究[J]. 天文研究与技术 2017(02)
    • [8].云计算在煤矿远程调度系统中的应用技术分析[J]. 煤炭技术 2013(12)
    • [9].高性能计算节点智能平台管理模块的设计[J]. 核电子学与探测技术 2011(05)
    • [10].基于动态预测和任务流整形的网格调度算法[J]. 计算机工程 2008(08)
    • [11].硅立方 边“冲凉”边超算[J]. 建筑工人 2020(02)
    • [12].云计算环境中P2P计算的优化组织模型[J]. 清华大学学报(自然科学版) 2011(11)
    • [13].QLogic与联想合作加快QLogic在中国市场的渗透力度[J]. 计算机与网络 2014(24)
    • [14].基于云计算的蒙特卡罗模拟研究[J]. 计算机与现代化 2014(04)
    • [15].基于Cloud Foundry的云计算PaaS平台拓扑展示设计与实现[J]. 信息网络安全 2014(08)
    • [16].IP助力本土企业打造车用嵌入式GPU和计算节点[J]. 电子产品世界 2020(12)
    • [17].无线传感器网络中一种主动计算节点信任度方法[J]. 计算机应用研究 2015(12)
    • [18].基于模糊聚类分析的云计算负载平衡策略[J]. 计算机应用 2012(01)
    • [19].一种分布式环境中海量XML数据的有效查询机制[J]. 重庆交通大学学报(自然科学版) 2009(04)
    • [20].蚁群:一种新型的高效多用计算平台[J]. 计算机研究与发展 2015(06)
    • [21].大规模并行操作系统研究[J]. 计算机科学 2013(S2)
    • [22].一种实时测控集群数据处理进程软件控制方法[J]. 遥测遥控 2019(01)
    • [23].产业新闻[J]. 消费电子 2012(01)
    • [24].充分利用multiGPU架构[J]. 微电脑世界 2011(12)
    • [25].边缘计算节点联网 社会面资源一“网”打尽[J]. 中国公共安全 2018(07)
    • [26].云环境下基于可靠性的均衡任务调度算法研究[J]. 计算机科学 2015(S1)
    • [27].大型分布式计算中的分级节能调度[J]. 计算机科学 2013(04)
    • [28].“读博21年尚未毕业”背后的问题[J]. 决策探索(上半月) 2012(01)
    • [29].异构GPU集群的任务调度方法研究及实现[J]. 计算机技术与发展 2012(05)
    • [30].MapReduce在科学计算中的研究与改进[J]. 无线互联科技 2013(03)

    标签:;  ;  ;  ;  ;  

    面向应用的集群资源管理系统设计与实现
    下载Doc文档

    猜你喜欢