nn.MultiheadAttention返回三个值:

  1. 输出张量:形状为(tgt_len,batch_size,embed_dim),其中tgt_len是目标序列的长度,batch_size是批次大小,embed_dim是嵌入维度。

  2. 注意力张量:形状为(batch_size,num_heads,tgt_len,src_len),其中num_heads是头的数量,src_len是源序列的长度。

  3. 缓存:包含了源张量和源张量的注意力掩码,以便在下一次调用时使用。

nnmultiheadattention 它的返回值你知道吗

原文地址: https://www.cveoy.top/t/topic/hg91 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录