语义角色标注(SRL)的基础是深度卷积神经网络中最深层的词嵌入,Collobert和Weston建议在多个训练任务之间共享这些嵌入的权重,并针对每个独立任务微调其余两个前馈层的权重。直到ELMo(Peters等人,2018)和ULMFiT(Howard和Ruder,2018)的出现,预训练和微调才在自然语言处理领域获得了普及。这两个模型都基于长短时记忆(LSTM)架构(Hochreiter和Schmidhuber,1997),但在很多方面存在差异。ULMFiT在标准语言建模目标上预训练了一个三层LSTM,预测序列中的下一个标记。ELMo使用双向LSTM层,结合向前和向后的两个语言模型任务以捕捉来自两侧的上下文。这两个模型都建议逐层微调语言模型,同时添加分类器层。这些变化以及预训练语料库规模和模型大小的大幅增加,使得预训练和微调范式成功。ELMo和ULMFiT在多个任务上展现出了竞争性或更好的性能,证明了大规模语言模型预训练的价值。2018年底,Vaswani等人(2017)引入了Transformer架构,使得这一范式转变的步伐大大加快。Transformer的多头自注意机制允许每个单词关注所有之前的单词或除目标单词之外的所有单词,从而使模型能够高效地捕捉长距离依赖关系,避免了LSTM昂贵的循环计算。多层的多头自注意机制允许越来越具有表现力的表示,适用于一系列自然语言处理问题。因此,几乎所有流行的语言模型,包括GPT、BERT、BART(Lewis等人,2020)和T5(Raffel等人,2020),现在都基于Transformer架构,但它们在很多重要方面存在差异,我们在接下来的章节中将进行讨论。有关Transformer架构的更多细节,我们建议读者参考原始论文或可用的优秀教程

翻译:and semantic role labeling SRL Collobert andWeston proposed sharing the weights of their deepest convolutional layer – the word embeddingslearned by the model – between the multiple training task

原文地址: https://www.cveoy.top/t/topic/dsaR 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录