Deformable DETR中后一层Decoder的mutil-scale deformable attention的v是由什么输入?
Deformable DETR中后一层Decoder的mutil-scale deformable attention的v是由Encoder输出的特征图经过卷积层处理得到的。具体来说,Encoder输出的特征图先经过一个1x1卷积层和一个3x3卷积层,得到了一组特征向量,然后这些特征向量被用作mutil-scale deformable attention中的v输入。
原文地址: http://www.cveoy.top/t/topic/bpZO 著作权归作者所有。请勿转载和采集!