Transformer 文本编码器:上下文长度详解
Transformer 的文本编码器上下文长度由其自身的超参数控制。编码器由多个编码器层组成,每个编码器层包含一个多头自注意力机制和一个前馈神经网络。在进行自注意力计算时,每个单词的表示向量都会考虑其前面的 n 个单词和后面的 m 个单词,其中 n 和 m 由超参数控制的上下文长度决定。实践中,通常使用较小的上下文长度,以在保持模型效果的同时减少计算成本。
原文地址: https://www.cveoy.top/t/topic/n7dX 著作权归作者所有。请勿转载和采集!