您的 nvidia-sm stats -d encutil 显示利用率达到 99%?这可能意味着您的 GPU 资源被大量占用,但具体是什么原因导致的呢?别担心,本文将为您提供一些命令,帮助您更详细地了解 GPU 资源使用情况。

您可以使用以下命令获取更详细的信息:

  • nvidia-smi nvlink --status:显示 GPU 之间的 NVLink 连接状态和速度。
  • nvidia-smi topo --matrix:显示 GPU 之间的拓扑结构,包括相互连接的 GPU 和拓扑连接速度。
  • nvidia-smi dmon:显示每个 GPU 的实时显存使用情况、GPU 利用率和功耗。
  • nvidia-smi pmon:显示每个 GPU 上正在运行的进程和它们的 GPU 内存使用情况、GPU 利用率和功耗。
  • nvidia-smi nvlink --query-gpu-utilization:显示每个 GPU 之间的 NVLink 利用率。

通过这些命令,您可以更深入地了解 GPU 的利用率情况,从而找出具体是哪些进程或程序占用了大量资源,并采取相应措施优化您的 GPU 使用方式。

NVIDIA-SM Stats 高利用率排查指南:详细命令解析

原文地址: https://www.cveoy.top/t/topic/o99Z 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录