在Ubuntu系统下配置Slurm的步骤如下:

  1. 安装Slurm

在Ubuntu系统下,可以使用以下命令安装Slurm:

sudo apt-get install slurm-llnl
  1. 配置Slurm

在Ubuntu系统下,Slurm的配置文件位于/etc/slurm-llnl/slurm.conf。可以使用以下命令打开该文件进行编辑:

sudo nano /etc/slurm-llnl/slurm.conf

以下是一个简单的Slurm配置文件示例:

# slurm.conf file generated by configurator easy.html.
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
#
ControlMachine=a
#
#MailProg=/bin/mail
MpiDefault=none
#MpiParams=ports=#-#
ProctrackType=proctrack/pgid
ReturnToService=1
SlurmctldPidFile=/var/run/slurm-llnl/slurmctld.pid
#SlurmctldPort=6817
SlurmdPidFile=/var/run/slurm-llnl/slurmd.pid
#SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=slurm
#SlurmdUser=root
StateSaveLocation=/var/spool/slurm-llnl/slurmctld
SwitchType=switch/none
TaskPlugin=task/none
#
# TIMERS
#KillWait=30
#MinJobAge=300
#SlurmctldTimeout=120
#SlurmdTimeout=300
#
# SCHEDULING
#SchedulerType=sched/backfill
#SchedulerPort=7321
#SelectType=select/linear
#SelectTypeParameters=CR_Core
#
# LOGGING AND ACCOUNTING
AccountingStorageType=accounting_storage/none
ClusterName=cluster
#JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
#SlurmctldDebug=3
#SlurmctldLogFile=
#SlurmdDebug=3
#SlurmdLogFile=
#
# COMPUTE NODES
NodeName=a CPUs=2 State=UNKNOWN
NodeName=b CPUs=2 State=UNKNOWN
PartitionName=debug Nodes=a,b Default=YES MaxTime=INFINITE State=UP

在该配置文件中,主节点名为a,计算节点名为a和b,计算节点a和b都有2个CPU。PartitionName定义了一个名为debug的分区,使用a和b节点作为默认节点,并且最大运行时间为INFINITE。

  1. 启动Slurm

在Ubuntu系统下,可以使用以下命令启动Slurm:

sudo service slurm-llnl start
  1. 测试Slurm

可以使用以下命令测试Slurm是否正常工作:

srun -N2 hostname

该命令将启动一个包含2个节点的作业,并在每个节点上打印主机名。如果Slurm正常工作,则应该在a和b节点上分别打印出主机名。

Ubuntu系统下Slurm配置教程:主节点a和计算节点b

原文地址: https://www.cveoy.top/t/topic/oYNE 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录