Kubernetes 多实例 NVIDIA GPU (MIG) 支持指南

要在 Kubernetes 中支持多实例 NVIDIA GPU (MIG)，您需要进行以下步骤：

确保您的 Kubernetes 集群中的每个节点都具备 NVIDIA GPU，且这些 GPU 支持 MIG。 您可以使用 nvidia-smi 命令来验证 GPU 是否支持 MIG。例如，nvidia-smi -q -d MIG。
安装 NVIDIA 设备插件 (NVIDIA Device Plugin)， 它是一个 Kubernetes 插件，用于发现和管理节点上的 GPU 资源。您可以按照 NVIDIA 官方文档中的说明进行安装。
配置 NVIDIA 设备插件以支持 MIG。 您需要编辑设备插件的配置文件，以便告知插件有关 MIG 设备的信息。配置文件的位置通常是 /etc/kubernetes/nvidia/device-plugin.yml。您需要添加类似以下的配置信息：

resources:
  limits:
    nvidia.com/gpu: 1
    nvidia.com/mig-1g.1.sm: 1

此配置表示设备插件将为每个节点提供一个 GPU 实例和一个 MIG 实例。

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.9.0/nvidia-device-plugin.yml

kubectl describe node <node-name> | grep -i nvidia

您应该能够看到有关 GPU 和 MIG 实例的信息。

在 Kubernetes 中定义 Pod 时，您可以使用资源限制 (Resource Limits) 来指定要使用的 GPU 资源。 例如，您可以在 Pod 的 spec 部分中添加以下内容：

spec:
  containers:
  - name: my-container
    resources:
      limits:
        nvidia.com/gpu: 1
        nvidia.com/mig-1g.1.sm: 1

这将确保您的 Pod 使用一个 GPU 实例和一个 MIG 实例。

通过以上步骤，您应该能够在 Kubernetes 中成功支持多实例 NVIDIA GPU (MIG)。