翻译：Collobert and Weston proposed sharing the weights of their deepest convolutional layer – the word embeddingslearned by the model – between the multiple training tasks and fine-tuning the weights - 体育

Collobert和Weston提出了共享他们的最深的卷积层——模型学习的词嵌入——的权重，用于多个训练任务，并针对每个单独的任务微调其余的两个前馈层的权重。直到ELMo（Peters等人，2018）和ULMFiT（Howard和Ruder，2018）的出现，预训练和微调在NLP中并不流行。这两个模型都基于长短期记忆体系结构（LSTMs）（Hochreiter和Schmidhuber，1997），但在很多方面是不同的。ULMFiT在标准语言建模目标上预训练一个三层LSTM，预测序列中的下一个标记。ELMo使用一系列双向LSTM层，以正向和反向两个语言建模任务结合起来，捕获两侧的上下文。两者都建议将语言模型逐层微调以用于下游应用，并在语言模型层之上添加额外的分类器层，这些层与语言模型层一起进行微调。这些变化，加上相对于先前模型而言更大的模型大小和预训练语料库大小，使得预训练然后微调范式成功。ELMo和ULMFiT在许多任务中都表现出了竞争力或优于当时的最新技术，证明了大规模语言模型预训练的价值。

这种范式的转变在2018年末迅速加速，当时Vaswani等人（2017）介绍了可用于语言模型预训练的Transformer体系结构。Transformer的多头自注意机制允许每个单词关注所有以前的单词或除目标外的每个单词，使模型能够有效地捕获长距离依赖关系，而无需在LSTMs中进行昂贵的递归计算。多层多头自我关注允许获得越来越具有表现力的表示，对于一系列NLP问题非常有用。因此，几乎所有流行的语言模型，包括GPT、BERT、BART（Lewis等人，2020）和T5（Raffel等人，2020），现在都基于Transformer体系结构。它们在许多重要方面也存在差异，我们将在以下部分进行讨论。有关Transformer体系结构的更多详细信息，我们建议读者参考原始论文或可用的优秀教程3,4

翻译：Collobert and Weston proposed sharing the weights of their deepest convolutional layer – the word embeddingslearned by the model – between the multiple training tasks and fine-tuning the weights