以下是完整的Slurm安装教程:

  1. 安装Slurm

在主节点和计算节点上都运行以下命令进行安装:

sudo apt update
sudo apt install slurm-llnl
  1. 配置Slurm

在主节点上编辑 /etc/slurm-llnl/slurm.conf 文件,添加以下内容:

# slurm.conf file generated by configurator.html.
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
#
ControlMachine=10.18.10.200
ControlAddr=10.18.10.200
AuthType=auth/munge
MpiDefault=none
ProctrackType=proctrack/pgid
ReturnToService=1
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=slurm
StateSaveLocation=/var/spool/slurm-llnl/slurmctld
SwitchType=switch/none
TaskPlugin=task/none
#
# COMPUTE NODES
#
NodeName=10.18.10.200 Sockets=1 CoresPerSocket=1 ThreadsPerCore=1 State=UNKNOWN
NodeName=10.18.10.199 Sockets=1 CoresPerSocket=1 ThreadsPerCore=1 State=UNKNOWN
PartitionName=debug Nodes=10.18.10.200,10.18.10.199 Default=YES MaxTime=INFINITE State=UP

此配置文件指定了控制节点的IP地址,启用了 munge 认证,配置了调度器和计算节点的端口,指定了计算节点的 IP 地址,配置了一个名为 debug 的分区,其中包含两个节点。

在计算节点上,编辑 /etc/slurm-llnl/slurm.conf 文件,添加以下内容:

# slurm.conf file generated by configurator.html.
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
#
ControlMachine=10.18.10.200
ControlAddr=10.18.10.200
AuthType=auth/munge
MpiDefault=none
ProctrackType=proctrack/pgid
ReturnToService=1
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=slurm
StateSaveLocation=/var/spool/slurm-llnl/slurmctld
SwitchType=switch/none
TaskPlugin=task/none
#
# COMPUTE NODES
#
NodeName=10.18.10.199 Sockets=1 CoresPerSocket=1 ThreadsPerCore=1 State=UNKNOWN
PartitionName=debug Nodes=10.18.10.200,10.18.10.199 Default=YES MaxTime=INFINITE State=UP

此配置文件指定了控制节点的IP地址,启用了 munge 认证,配置了调度器和计算节点的端口,指定了计算节点的 IP 地址,配置了一个名为 debug 的分区,其中包含两个节点。

  1. 启动Slurm

在主节点上运行以下命令启动控制节点:

sudo systemctl start slurmctld

在计算节点上运行以下命令启动计算节点:

sudo systemctl start slurmd
  1. 测试Slurm

在主节点上运行以下命令,测试Slurm是否正常工作:

srun -N 2 ls / > /dev/null

此命令将在两个节点上运行 ls / 命令,并将输出重定向到 /dev/null

如果一切正常,您应该看到输出没有错误。如果有错误,请检查 Slurm 配置文件和服务是否正确配置。

  1. 添加用户

为了允许用户提交任务,您需要为他们创建一个 Slurm 用户帐户。在主节点上运行以下命令:

sudo useradd -m slurm
sudo passwd slurm
  1. 添加用户到Slurm

在主节点上运行以下命令,将用户添加到 Slurm 用户组:

sudo usermod -aG slurm <username>
  1. 添加Slurm用户的SSH密钥

在主节点上,切换到Slurm用户:

sudo su - slurm

生成一个SSH密钥,如果没有的话:

ssh-keygen

将公钥复制到计算节点:

ssh-copy-id <username>@10.18.10.199

输入密码确认将公钥复制到计算节点。

  1. 测试Slurm作业

在主节点上,切换到您要运行作业的用户帐户,并创建一个示例作业脚本 job.sh,内容如下:

#!/bin/bash
#SBATCH --job-name=test
#SBATCH --nodes=2
#SBATCH --ntasks-per-node=1
#SBATCH --time=00:01:00
#SBATCH --partition=debug

srun hostname

此作业将在两个节点上运行 hostname 命令。

在主节点上,运行以下命令提交作业:

sbatch job.sh

此命令将提交作业,并将其分配给 debug 分区的两个节点。

在作业完成后,运行以下命令查看作业状态:

squeue -u <username>

此命令将显示作业状态和节点信息。

  1. 结束Slurm作业

如果需要结束作业,运行以下命令:

scancel <jobid>

此命令将结束指定的作业

两台全新的Ubuntu1804系统的电脑我不知道两台电脑的CPU信息你可以自己假定给我一个完整的slurm安装教程可以所有软件可以通过apt install安装两台电脑都不能连接互联网主节点ip为101810200计算节点ip为101810199主节点是控制节点的同时也是一个计算节点最后可以实现srun -N 2 oo这个文件只有主节点有计算节点没有。

原文地址: https://www.cveoy.top/t/topic/hvuc 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录