Slurm 是一种流行的开源集群管理系统,用于管理计算集群上的作业。'srun' 是 Slurm 的一个命令,用于提交并运行一个作业或一组作业。其原理如下:

  1. 用户使用 'srun' 命令提交作业,并指定作业的资源需求和运行参数。

  2. 'srun' 命令将作业信息发送给 Slurm 控制节点,并被加入到作业队列中。

  3. Slurm 控制节点根据作业队列中的优先级和资源可用性,选择一个可用的计算节点分配给该作业。

  4. 计算节点接收到分配请求后,启动作业进程并执行作业。

  5. 作业完成后,计算节点将结果返回给 Slurm 控制节点,并释放分配的资源。

  6. Slurm 控制节点将作业状态更新为'完成',并通知用户作业已完成。

总之,'srun' 命令是通过将作业信息发送给 Slurm 控制节点,由 Slurm 控制节点分配计算节点并启动作业进程的方式来实现作业提交和运行的。

Ubuntu 上 Slurm 的 srun 命令原理 - 提交和运行作业

原文地址: https://www.cveoy.top/t/topic/oYkB 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录