CUDA 10.0 Stream 中操作优先级:内核、设备间内存复制与主机间数据传输
在 CUDA 10.0 中,stream 中的操作优先级如下:
- CUDA kernel: 拥有最高优先级,因为它是在 GPU 上直接执行的操作。
- Device-to-device cudaMemcpyAsync: 具有高优先级,因为它们不涉及主机内存。
- Host-to-device cudaMemcpyAsync: 优先级略低,因为它需要涉及主机内存。
device-to-host 类型的 cudaMemcpyAsync 优先级与 Host-to-device cudaMemcpyAsync 相同,也较低。 因为它需要涉及主机内存,并且在 GPU 上的执行需要等待主机内存数据被复制到 GPU 上。
原文地址: https://www.cveoy.top/t/topic/oe1W 著作权归作者所有。请勿转载和采集!