Transformer 位置编码公式详解：如何为序列添加位置信息

Transformer 中的位置编码公式用于将输入序列中每个位置的信息编码成一个向量，以便在注意力机制中考虑位置信息。该公式如下：

$$\PE_{(pos,2i)} = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right)$$

$$\PE_{(pos,2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right)$$

其中，'pos' 表示输入序列中的位置，'i' 表示向量中的维度，'d_{model}' 表示 Transformer 模型的嵌入维度。

该公式的实现方式是，在每个位置的嵌入向量中加上一个位置编码向量。位置编码向量由正弦和余弦函数组成，其频率随着向量维度的增加而增加。这样，不同位置的嵌入向量在经过位置编码后，就能够在注意力机制中区分出不同的位置信息，从而提高模型的性能。