Kubernetes 多实例 NVIDIA GPU (MIG) 支持指南
要在 Kubernetes 中支持多实例 NVIDIA GPU (MIG),您需要进行以下步骤:
-
确保您的 Kubernetes 集群中的每个节点都具备 NVIDIA GPU,且这些 GPU 支持 MIG。 您可以使用
nvidia-smi命令来验证 GPU 是否支持 MIG。例如,nvidia-smi -q -d MIG。 -
安装 NVIDIA 设备插件 (NVIDIA Device Plugin), 它是一个 Kubernetes 插件,用于发现和管理节点上的 GPU 资源。您可以按照 NVIDIA 官方文档中的说明进行安装。
-
配置 NVIDIA 设备插件以支持 MIG。 您需要编辑设备插件的配置文件,以便告知插件有关 MIG 设备的信息。配置文件的位置通常是
/etc/kubernetes/nvidia/device-plugin.yml。您需要添加类似以下的配置信息:
resources:
limits:
nvidia.com/gpu: 1
nvidia.com/mig-1g.1.sm: 1
此配置表示设备插件将为每个节点提供一个 GPU 实例和一个 MIG 实例。
- 部署 NVIDIA 设备插件。 您可以使用以下命令来部署插件:
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.9.0/nvidia-device-plugin.yml
- 验证设备插件是否成功部署。 您可以运行以下命令来查看 GPU 资源的可用性:
kubectl describe node <node-name> | grep -i nvidia
您应该能够看到有关 GPU 和 MIG 实例的信息。
- 在 Kubernetes 中定义 Pod 时,您可以使用资源限制 (Resource Limits) 来指定要使用的 GPU 资源。 例如,您可以在 Pod 的
spec部分中添加以下内容:
spec:
containers:
- name: my-container
resources:
limits:
nvidia.com/gpu: 1
nvidia.com/mig-1g.1.sm: 1
这将确保您的 Pod 使用一个 GPU 实例和一个 MIG 实例。
通过以上步骤,您应该能够在 Kubernetes 中成功支持多实例 NVIDIA GPU (MIG)。
原文地址: https://www.cveoy.top/t/topic/qeOc 著作权归作者所有。请勿转载和采集!