加速 DNN 推理：边缘计算的三种方法

为了缓解资源受限的边缘设备与资源需求高的 DNN 模型之间的差异，大多数相关研究采用以下三种方法之一加速 DNN 推理。

第一种方法是 DNN 模型修改，利用网络结构中的冗余来减少不必要的计算，例如压缩 DNN 或添加早期退出分支。然而，这种方法通常需要专家经验，并可能导致一定的准确度损失。

第二种方法是多设备协作，通过将 DNN 推理分区和分发到一个本地连接的边缘设备群集中，实现执行并行性。这种方法通常预设了足够数量的协作者在发起者附近，这可能因特定情况而异。

第三种方法是硬件加速，利用专用硬件加速器，例如 GPU 或 FPGA，来加速 DNN 推理。这种方法可以显著提高推理速度，但需要额外的硬件成本。

这三种方法各有优缺点，需要根据具体场景选择合适的方案。例如，对于资源非常有限的设备，可以使用模型压缩来减少模型大小和计算量；对于需要快速推理的场景，可以使用多设备协作或硬件加速来提高推理速度。