Slurm 的配置文件是 slurm.conf,其中节点部分的参数包括:

  • NodeName: 节点的名称,可以是 IP 地址或主机名。
  • State: 节点的状态,包括 DOWN、UNKNOWN、DRAIN、RESUME、MAINT、OFFLINE 等。
  • CPUs: 节点上 CPU 的数量。
  • Sockets: 节点上 CPU 的插槽数量。
  • CoresPerSocket: 每个插槽上的 CPU 核心数量。
  • ThreadsPerCore: 每个 CPU 核心上的线程数。
  • RealMemory: 节点上的实际内存大小。
  • Feature: 节点的特征,比如 GPU、IB 等。
  • Partition: 节点所属的分区。
  • Weight: 节点的权重,用于调度时的排序。
  • MaxTime: 节点上可运行作业的最大时间。
  • StateReason: 节点状态的原因,比如 DOWN 状态的原因是网络故障等。
  • Comment: 注释信息,可以用于描述节点的更多信息。
Ubuntu Slurm 配置文件节点参数详解

原文地址: https://www.cveoy.top/t/topic/oYLE 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录