Transformer的文本编码器的上下文长度是由其自身的超参数来控制的。在Transformer中,编码器由多个编码器层组成,每个编码器层都包含一个多头自注意力机制和一个前馈神经网络。在进行自注意力计算时,每个单词的表示向量都会考虑其前面的n个单词和后面的m个单词,其中n和m是由超参数控制的上下文长度。在实践中,通常使用较小的上下文长度,以便在保持模型效果的同时减少计算成本。


原文地址: https://www.cveoy.top/t/topic/fe1b 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录