写一份 cuda 核函数使用模板函数的示例代码

以下是一个使用模板函数的 CUDA 核函数示例代码：

#include <cuda_runtime.h>
#include <iostream>

template <typename T>
__global__ void add_kernel(T* a, T* b, T* c, int size) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < size) {
        c[idx] = a[idx] + b[idx];
    }
}

template<typename T>
void add(T* a, T* b, T* c, int size) {
    T* dev_a;
    T* dev_b;
    T* dev_c;

    cudaMalloc((void**) &dev_a, size * sizeof(T));
    cudaMalloc((void**) &dev_b, size * sizeof(T));
    cudaMalloc((void**) &dev_c, size * sizeof(T));

    cudaMemcpy(dev_a, a, size * sizeof(T), cudaMemcpyHostToDevice);
    cudaMemcpy(dev_b, b, size * sizeof(T), cudaMemcpyHostToDevice);

    int block_size = 256;
    int grid_size = (size + block_size - 1) / block_size;

    add_kernel<<<grid_size, block_size>>>(dev_a, dev_b, dev_c, size);

    cudaMemcpy(c, dev_c, size * sizeof(T), cudaMemcpyDeviceToHost);

    cudaFree(dev_a);
    cudaFree(dev_b);
    cudaFree(dev_c);
}

int main() {
    int size = 10;
    int a[size] = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10};
    int b[size] = {10, 9, 8, 7, 6, 5, 4, 3, 2, 1};
    int c[size];

    add(a, b, c, size);

    for (int i = 0; i < size; i++) {
        std::cout << c[i] << " ";
    }
    std::cout << std::endl;

    return 0;
}

该示例代码定义了一个模板函数 add，该函数接受两个数组 a 和 b，将它们相加并将结果存储到数组 c 中。该函数使用 add_kernel 核函数实现数组相加的操作。

在 add_kernel 核函数中，使用了模板类型 T，允许该函数处理不同类型的数据，例如整数、浮点数等等。该函数通过计算线程索引 idx，并根据该索引计算要处理的数组元素，将数组 a 和 b 相加，并将结果存储到数组 c 中。

在 add 函数中，首先分配了设备内存 dev_a、dev_b 和 dev_c，并使用 cudaMemcpy 将主机内存中的数组 a 和 b 拷贝到设备内存中。然后，根据数组大小 size 计算了线程块大小 block_size 和网格大小 grid_size，并调用 add_kernel 核函数进行数组相加。最后，使用 cudaMemcpy 将结果从设备内存拷贝回主机内存，并释放设备内存。

在主函数中，创建了两个数组 a 和 b，并调用 add 函数进行数组相加。最后，输出结果数组 c 的内容