论文摘要
利用互联网把分散在不同地理位置的电脑组织成一个“虚拟的超级计算机”,这种计算方式叫网格计算。网格计算使得人们充分利用网络中的各种资源,协调计算机网络中作业的运行,为用户提供一体化信息和应用服务。本论文以Platform公司的网格计算产品LSF为基础,针对根据该产品在调度过程中对于短作业调度性能效率上的缺点提出研究方案,并设计实现短作业调度的独立模块。有效的控制了短作业调度过程中性能消耗过高的问题。使得产品的调度在大量短作业的情况下,作业调度更加有效和合理。本文中设计实现的内容符合原有的网格计算产品的理念,充分利用了已有的产品,并且以现有的产品框架为基础,开发了独立运行于原产品之外的调度模块,使得原有调度过程中调度负载降低。工作的内容涵盖了为短作业调度模块设计总体的结构以及同原主系统的交互,为其设计并实现作业在其中的调动过程和资源配置方式。本文研究的主要存在的问题和技术关键点包括了短作业调度优化的问题,降低并行冲突的控制,基于检查点技术的容错处理和任务重新运行的机制,资源收集分配和控制。通过对本文中内容的研究,最终实现了短作业调度模块与原产品的完全整合,在能够合理的分配计算资源且有一定容错措施的基础上,达到了提高短作业调度性能的目的。