两台全新的Ubuntu1804系统的电脑我不知道两台电脑的CPU信息你可以自己假定给我一个完整的slurm安装教程可以所有软件可以通过apt install安装两台电脑都不能连接互联网如果需要时间同步请用主节点本地搭建服务器主节点ip为101810200计算节点ip为101810199主节点是控制节点的同时也是一个计算节点最后可以实现srun -N 2 oo这个文件只有主节点有计算节点没有。
Slurm是一个开源的高性能计算(HPC)集群管理系统,它允许用户提交作业,管理计算节点和资源,跟踪作业状态等。下面是在两台Ubuntu18.04系统的电脑上安装和配置Slurm的完整教程。
- 安装Slurm和依赖软件
在主节点和计算节点上执行以下命令:
sudo apt update
sudo apt install slurm slurmd slurmctld munge
其中,munge是用于加密和解密Slurm消息的工具,Slurm需要使用它来保证通信的安全性。
- 配置munge
在主节点和计算节点上执行以下命令:
sudo mkdir -p /etc/munge/
sudo chmod 700 /etc/munge/
sudo /usr/sbin/create-munge-key
sudo cp /etc/munge/munge.key /etc/munge/munge.key.old
sudo chmod 400 /etc/munge/munge.key
sudo chown -R munge:munge /etc/munge/
这些命令会生成一个新的munge密钥,并将其复制到/etc/munge/目录下。然后,设置munge.key文件的访问权限为400,只有munge用户和组可以访问它。
- 配置Slurm
在主节点上编辑/etc/slurm-llnl/slurm.conf文件,添加以下内容:
# 节点配置
NodeName=10.18.10.200 CPUs=2 State=UNKNOWN
NodeName=10.18.10.199 CPUs=2 State=UNKNOWN
# 安装配置
ControlMachine=10.18.10.200
SlurmUser=slurm
SlurmctldPort=6817
SlurmdPort=6818
AuthType=auth/munge
MpiDefault=none
# 任务队列配置
PartitionName=debug Nodes=10.18.10.200,10.18.10.199 Default=YES MaxTime=24:00:00 State=UP
这个配置文件指定了两个节点的信息,以及Slurm的其他一些配置,例如控制节点的IP地址,Slurm用户的名称,端口号,验证类型,任务队列等。
在计算节点上编辑/etc/slurm-llnl/slurm.conf文件,添加以下内容:
# 安装配置
ControlMachine=10.18.10.200
SlurmdPort=6818
AuthType=auth/munge
# 节点配置
NodeName=10.18.10.199 CPUs=2 State=UNKNOWN
这个配置文件中只包含计算节点的信息和Slurm的一些配置。
- 启动Slurm
在主节点上执行以下命令启动Slurm:
sudo systemctl start munge
sudo systemctl enable munge
sudo systemctl start slurmd
sudo systemctl start slurmctld
在计算节点上执行以下命令启动Slurm:
sudo systemctl start munge
sudo systemctl enable munge
sudo systemctl start slurmd
- 配置时间同步
在主节点上安装ntp服务:
sudo apt install ntp
编辑/etc/ntp.conf文件,在文件末尾添加以下内容:
# 使用本地时钟
server 127.127.1.0
fudge 127.127.1.0 stratum 10
重启ntp服务:
sudo systemctl restart ntp
- 测试Slurm
在主节点上创建一个测试作业文件test.sh,内容如下:
#!/bin/bash
echo "Hello, world!" > /tmp/test.out
在主节点上使用sbatch命令提交测试作业:
sbatch test.sh
这个作业会被提交到计算节点上执行。在计算节点上检查/tmp/test.out文件是否存在,如果存在则说明Slurm配置成功。
最后,使用srun命令测试Slurm是否工作正常:
srun -N 2 ls /
这个命令会在两个节点上执行ls /命令,并显示结果。
到此为止,Slurm的安装和配置已经完成
原文地址: https://www.cveoy.top/t/topic/hvua 著作权归作者所有。请勿转载和采集!