多头注意力机制的注意力分数通常是一个二维矩阵,其中行表示查询向量 (Q) 的不同部分,列表示键向量 (K) 的不同部分。每个元素表示对应的 Q 和 K 部分之间的注意力权重。如果有多个头,则会生成多个这样的矩阵。

多头注意力机制:注意力分数维度详解

原文地址: http://www.cveoy.top/t/topic/ocR8 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录