以下是完整的slurm安装教程:

  1. 安装Slurm和Munge

在主节点和计算节点上都需要安装Slurm和Munge。Munge是Slurm用于加密通信的工具。

打开终端,运行以下命令:

sudo apt update
sudo apt install slurm-wlm munge
  1. 配置Munge

Munge需要在主节点和计算节点上都进行配置。在主节点上,打开终端,创建一个Munge key:

sudo dd if=/dev/urandom bs=1 count=1024 > /etc/munge/munge.key
sudo chown munge:munge /etc/munge/munge.key
sudo chmod 400 /etc/munge/munge.key

在计算节点上,将主节点上的Munge key复制到计算节点上:

sudo scp 10.18.10.200:/etc/munge/munge.key /etc/munge/munge.key
sudo chown munge:munge /etc/munge/munge.key
sudo chmod 400 /etc/munge/munge.key

配置Munge服务:

在主节点和计算节点上都需要打开终端,编辑Munge配置文件/etc/default/munge:

sudo nano /etc/default/munge

修改文件中的以下行:

# /etc/default/munge

# Enable Munge
START_MUNGE=yes

# Munge user and group
USER=munge
GROUP=munge

保存并关闭文件。

启动Munge服务:

在主节点和计算节点上都需要打开终端,启动Munge服务:

sudo service munge start
  1. 配置Slurm

在主节点上修改Slurm配置文件/etc/slurm-llnl/slurm.conf:

sudo nano /etc/slurm-llnl/slurm.conf

修改以下行:

# /etc/slurm-llnl/slurm.conf

# ControlMachine指定主节点的IP地址
ControlMachine=10.18.10.200

# SlurmctldHost指定主节点的IP地址
SlurmctldHost=10.18.10.200

# NodeName指定计算节点的名称,NodeAddr指定计算节点的IP地址
NodeName=node1 NodeAddr=10.18.10.199 CPUs=2 State=UNKNOWN

保存并关闭文件。

在主节点上创建Slurm工作目录:

sudo mkdir /var/spool/slurm
sudo chown slurm:slurm /var/spool/slurm
sudo chmod 755 /var/spool/slurm

启动Slurm服务:

在主节点上打开终端,启动Slurm服务:

sudo service slurmctld start
  1. 测试Slurm

在主节点上创建一个测试脚本o.sh:

nano o.sh

输入以下内容:

#!/bin/bash
echo "Hello, world!"

保存并关闭文件。

在主节点上打开终端,运行以下命令:

srun -N 2 o.sh

如果一切正常,将会在终端中看到以下输出:

Hello, world!
Hello, world!

说明Slurm已经成功安装并运行

两台全新的Ubuntu1804系统的电脑我不知道两台电脑的CPU信息你可以自己假定给我一个完整的slurm安装教程可以所有软件可以通过apt install安装两台电脑都不能连接互联网主节点ip为101810200计算节点ip为101810199主节点是控制节点的同时也是一个计算节点最后可以实现srun -N 2 oshosh这个文件只有主节点有计算节点没有。

原文地址: https://www.cveoy.top/t/topic/hvuf 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录