1. 安装Slurm

在主节点和计算节点上都运行以下命令:

sudo apt update
sudo apt install slurm-llnl
  1. 配置Slurm

在主节点上,修改/etc/slurm-llnl/slurm.conf文件,添加以下内容:

# 节点配置
NodeName=master NodeAddr=10.18.10.200 CPUs=4 State=UNKNOWN
NodeName=compute NodeAddr=10.18.10.199 CPUs=4 State=UNKNOWN

# 分区配置
PartitionName=debug Nodes=master,compute Default=YES MaxTime=INFINITE State=UP

其中,NodeName指定节点名称,NodeAddr指定节点IP地址,CPUs指定节点CPU数量,PartitionName指定分区名称,Nodes指定分区中的节点。

在主节点上,修改/etc/slurm-llnl/cgroup.conf文件,将以下行的注释去掉:

CgroupAutomount=yes
ConstrainCores=yes
ConstrainRAMSpace=yes

在主节点上,修改/etc/slurm-llnl/slurmdbd.conf文件,将以下行的注释去掉:

#StorageType=accounting_storage/mysql
#StorageHost=localhost
#StoragePass=
#StorageUser=
#StoragePort=

在主节点上,运行以下命令启动Slurm:

sudo systemctl enable slurmctld
sudo systemctl start slurmctld
sudo systemctl enable slurmdbd
sudo systemctl start slurmdbd

在计算节点上,修改/etc/slurm-llnl/slurm.conf文件,添加以下内容:

# 节点配置
NodeName=compute NodeAddr=10.18.10.199 CPUs=4 State=UNKNOWN

# 主节点配置
ControlMachine=master

# 分区配置
PartitionName=debug Nodes=compute Default=YES MaxTime=INFINITE State=UP

其中,ControlMachine指定主节点名称。

在计算节点上,修改/etc/slurm-llnl/cgroup.conf文件,将以下行的注释去掉:

CgroupAutomount=yes
ConstrainCores=yes
ConstrainRAMSpace=yes

在计算节点上,运行以下命令启动Slurm:

sudo systemctl enable slurmd
sudo systemctl start slurmd
  1. 测试Slurm

在主节点上,运行以下命令创建一个测试作业:

sbatch -N 2 --wrap="hostname"

该作业将会在2个节点上运行,并输出节点名称。

在主节点上,运行以下命令查看作业状态:

squeue

该命令将会列出当前所有的作业状态。

在主节点上,运行以下命令查看作业输出:

cat slurm-<job_id>.out

其中,<job_id>是作业的ID。

  1. 实现srun -N 2 o.sh

在主节点上,将o.sh文件放置在/home/<username>/目录下。

在主节点上,运行以下命令创建一个测试作业:

srun -N 2 /home/<username>/o.sh

该作业将会在2个节点上运行o.sh脚本。

在主节点上,运行以下命令查看作业状态:

squeue

该命令将会列出当前所有的作业状态。

在主节点上,运行以下命令查看作业输出:

cat slurm-<job_id>.out

其中,<job_id>是作业的ID

两台全新的Ubuntu1804系统的电脑我不知道两台电脑的CPU信息你可以自己假定给我一个完整的slurm安装教程可以所有软件可以通过apt install安装两台电脑都不能连接互联网主节点ip为101810200计算节点ip为101810199主节点是控制节点的同时也是一个计算节点最后可以实现srun -N 2 oshosh这个文件只有主节点有计算节点没有两台电脑的用户名不同不使用数据库。

原文地址: https://www.cveoy.top/t/topic/hvun 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录