要在 Kubernetes 中支持多实例 NVIDIA GPU (MIG),您需要进行以下步骤:

  1. 确保您的 Kubernetes 集群中的每个节点都具备 NVIDIA GPU,且这些 GPU 支持 MIG。 您可以使用 nvidia-smi 命令来验证 GPU 是否支持 MIG。例如,nvidia-smi -q -d MIG

  2. 安装 NVIDIA 设备插件 (NVIDIA Device Plugin), 它是一个 Kubernetes 插件,用于发现和管理节点上的 GPU 资源。您可以按照 NVIDIA 官方文档中的说明进行安装。

  3. 配置 NVIDIA 设备插件以支持 MIG。 您需要编辑设备插件的配置文件,以便告知插件有关 MIG 设备的信息。配置文件的位置通常是 /etc/kubernetes/nvidia/device-plugin.yml。您需要添加类似以下的配置信息:

resources:
  limits:
    nvidia.com/gpu: 1
    nvidia.com/mig-1g.1.sm: 1

此配置表示设备插件将为每个节点提供一个 GPU 实例和一个 MIG 实例。

  1. 部署 NVIDIA 设备插件。 您可以使用以下命令来部署插件:
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.9.0/nvidia-device-plugin.yml
  1. 验证设备插件是否成功部署。 您可以运行以下命令来查看 GPU 资源的可用性:
kubectl describe node <node-name> | grep -i nvidia

您应该能够看到有关 GPU 和 MIG 实例的信息。

  1. 在 Kubernetes 中定义 Pod 时,您可以使用资源限制 (Resource Limits) 来指定要使用的 GPU 资源。 例如,您可以在 Pod 的 spec 部分中添加以下内容:
spec:
  containers:
  - name: my-container
    resources:
      limits:
        nvidia.com/gpu: 1
        nvidia.com/mig-1g.1.sm: 1

这将确保您的 Pod 使用一个 GPU 实例和一个 MIG 实例。

通过以上步骤,您应该能够在 Kubernetes 中成功支持多实例 NVIDIA GPU (MIG)。

Kubernetes 多实例 NVIDIA GPU (MIG) 支持指南

原文地址: https://www.cveoy.top/t/topic/qeOc 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录