Deformable DETR中后一层Decoder的self-attentio的v是由什么输入?
Deformable DETR中后一层Decoder的self-attention的v是由编码器输出和上一层Decoder的输出拼接而成的。具体来说,v的输入是一个维度为$(B,N,C)$的特征张量,其中$B$表示batch size,$N$表示序列长度,$C$表示特征通道数。该特征张量由编码器输出和上一层Decoder的输出在序列维度上拼接而成,即$v=[v_{enc};v_{dec-1}]$,其中$v_{enc}$表示编码器输出,$v_{dec-1}$表示上一层Decoder的输出。
原文地址: http://www.cveoy.top/t/topic/bpZi 著作权归作者所有。请勿转载和采集!