Deformable DETR中每一层的Decoder的self-attention,mutil-scale deformable attention的qkv输入如下:

  1. Query (q):来自当前Decoder层的上一层的输出。

  2. Key (k):来自当前Decoder层的上一层的输出。

  3. Value (v):来自当前Decoder层的上一层的输出。

对于mutil-scale deformable attention,除了上述输入外,还包括来自Encoder的多尺度特征图。具体来说,对于每个Encoder层,都会提取出多个尺度的特征图,然后将这些特征图作为额外的输入,用于计算mutil-scale deformable attention。


原文地址: https://www.cveoy.top/t/topic/bpYo 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录