transformer的文本编码器的上下文长度

Transformer的文本编码器的上下文长度是由其自身的超参数来控制的。在Transformer中，编码器由多个编码器层组成，每个编码器层都包含一个多头自注意力机制和一个前馈神经网络。在进行自注意力计算时，每个单词的表示向量都会考虑其前面的n个单词和后面的m个单词，其中n和m是由超参数控制的上下文长度。在实践中，通常使用较小的上下文长度，以便在保持模型效果的同时减少计算成本。