论文摘要
当前集群系统已经成为高性能计算体系结构发展的趋势,它极大地提高了高性能计算的发展,并逐渐从科学研究发展到其它各领域。在实际应用中,集群的软硬件资源相当丰富,这些资源需要进行实时监控以帮助集群达到负载均衡以及调度任务的顺利完成,还要及时获得软硬件的故障信息并加以解决,确保系统的稳定运行。论文首先介绍了计算机集群及其相关技术,以Platform公司的集群管理软件LSF为例,阐述了负载均衡软件在集群管理中的重要性和存在的问题,进一步说明了实时监控软件对于集群系统的负载均衡的重要性;其次,对当前环境下集群监控管理技术进行了分析,阐述了当前系统中存在的问题;再次,详细介绍了基于LSF和Cacti网络流量监测图形分析工具实现的一个基于Web的计算机集群远程监控管理系统RTM的设计和实现过程,并根据系统的功能组成,对主要模块:用户登录管理模块、集群系统监控管理模块、计算作业监控管理模块、集群资源图形绘制模块、集群资源告警提示模块、集群配置文件修改更新模块和应用服务监控管理模块进行了重点分析。最后,对基于Web的集群监控管理系统进行了测试和数据分析,总结了系统中存在的不足之处并寻求改进方法,提出今后的研究方向。
论文目录
摘要ABSTRACT1 绪论1.1 课题的研究背景和现状1.1.1 课题的研究背景1.1.2 课题的理论意义和应用价值1.1.3 国内外研究现状和存在问题1.2 论文的研究目的1.3 论文的结构1.4 本章小结2 集群技术和集群管理系统2.1 集群技术及其特点2.2 集群管理软件和集群监控技术的介绍2.2.1 传统的集群管理方式2.2.2 传统的集群监控方式2.2.3 集群监控管理系统的要求2.3 集群监控管理系统的体系结构2.4 监控系统的几个关键问题2.4.1 监控数据获取2.4.2 监控数据汇集2.5 基于 Web 的集群监控管理的关键技术2.6 本章小结3 集群监测管理系统设计分析3.1 系统的需求分析3.2 系统的总体设计3.3 系统的关键组件和架构设计3.3.1 系统关键组件3.3.2 系统架构设计3.4 系统功能模块3.5 系统工作流程3.6 数据库设计3.7 系统环境要求3.8 本章小结4 集群监控管理系统(RTM)的实现4.1 LSF 集群系统的安装与配置4.2 登录用户管理模块4.3 集群系统监控管理模块4.3.1 集群状态监控管理4.3.2 集群机器监控与管理4.3.3 集群队列监控与管理4.4 计算作业监控管理模块4.5 计算资源图形绘制和预警提示模块4.5.1 计算资源图形绘制4.5.2 计算计算资源预警提示4.6 集群配置文件查阅修改模块4.7 应用服务监听控制模块(HA)4.8 本章小结5. 系统测试与结果分析5.1 测试环境和测试结果5.2 性能测试结果分析5.3 系统的不足和改进5.4 本章小结6. 总结6.1 论文的主要工作6.2 展望致谢参考文献附录:攻读硕士学位期间发表论文情况
相关论文文献
标签:集群技术论文; 集群管理论文; 集群监控论文;