NVIDIA-SM Stats 高利用率排查指南:详细命令解析
您的 nvidia-sm stats -d encutil 显示利用率达到 99%?这可能意味着您的 GPU 资源被大量占用,但具体是什么原因导致的呢?别担心,本文将为您提供一些命令,帮助您更详细地了解 GPU 资源使用情况。
您可以使用以下命令获取更详细的信息:
nvidia-smi nvlink --status
:显示 GPU 之间的 NVLink 连接状态和速度。nvidia-smi topo --matrix
:显示 GPU 之间的拓扑结构,包括相互连接的 GPU 和拓扑连接速度。nvidia-smi dmon
:显示每个 GPU 的实时显存使用情况、GPU 利用率和功耗。nvidia-smi pmon
:显示每个 GPU 上正在运行的进程和它们的 GPU 内存使用情况、GPU 利用率和功耗。nvidia-smi nvlink --query-gpu-utilization
:显示每个 GPU 之间的 NVLink 利用率。
通过这些命令,您可以更深入地了解 GPU 的利用率情况,从而找出具体是哪些进程或程序占用了大量资源,并采取相应措施优化您的 GPU 使用方式。
原文地址: https://www.cveoy.top/t/topic/o99Z 著作权归作者所有。请勿转载和采集!