在 CUDA 10.0 中,高优先级的操作主要包括:

  1. kernel 函数的执行

  2. 针对同一个 stream 中的多个 cudaMemcpyAsync 调用,如果其中的某个调用涉及到了 host 指针的内存拷贝,则该调用的优先级会被提升,以确保 host 指针的内存拷贝能够及时完成。

其中,devicetohost 类型的 cudaMemcpyAsync 属于低优先级操作。

CUDA 10.0 Stream 中的高优先级操作:kernel 执行和 Device-to-Host 内存拷贝

原文地址: https://www.cveoy.top/t/topic/oe1R 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录