多头注意力机制的注意力分数的维度通常是一个二维矩阵,其中行表示查询向量(Q)的不同部分,列表示键向量(K)的不同部分。每个元素表示对应的Q和K部分之间的注意力权重。如果有多个头,则会生成多个这样的矩阵。


原文地址: https://www.cveoy.top/t/topic/fmvW 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录