这种方法最适合序列分类任务(例如情感分析、NLI和语义相似性)、序列标注任务(如NER)和跨度提取任务(例如QA),其中新训练的层学习答案的起始和结束跨度。对于序列分类任务,Devlin等人建议微调BERT对特殊[CLS]标记的表示,并接着使用单个前馈层将其分类为任务标签之一。对于标记级或跨度级分类任务,可以将每个标记的表示,或者仅将每个标记或跨度的第一个子标记的表示(如Devlin等人2019年所述)传递给分类器。这种微调方法用于将BERT应用于GLUE中的所有11个任务,以及QA(SQuAD)、NER(CoNLL 2003)和常识推理(SWAG)。有关此高度流行方法的许多其他示例,请参见表8(附录B)。在这种设置下,需要小心选择适合前馈层和PLM权重的学习速率。由于PLM已经大部分训练过,因此应使用较低的学习速率(介于1e-3(Raffel等人,2020)和1e-5(Liu等人,2019)之间),对于较小的数据集,应使用较低的学习速率。然而,随机初始化的前馈层权重仍然需要大量训练。因此,一种常见做法是在最初训练前馈层时暂时冻结语言模型层,然后逐渐解冻语言模型以进行额外的微调(Howard和Ruder,2018; Yang等人,2019)。这应该做到什么程度取决于前馈层的大小,以及是否使用BERT的[CLS]等标记。如果大多数工作由[CLS]完成,如Devlin等人的所有示例,那么仅训练前馈层的好处较少。同样,这是受监督的训练数据的可用性的函数。下一个选择是微调PLM的层数。虽然BERT论文中的示例微调整个模型,但在具有小数据集或计算能力受限的NLP任务中,这是不可行的。通常,仅微调语言模型的顶部几层就足够了。例如,Ross等人(2020)仅在其小型监督数据集的BERT顶层进行微调。在“BERTology”不断增长的领域中的一系列论文(Tenney等人,2019;Clark等人,2019b;Rogers等人,2020)表明,BERT的较低层包含词特定的和句法信息,例如词性,而较高层包含更多的语义和越来越复杂的信息,例如语义角色和指代信息

翻译:This approach is most suitable for sequence classification tasks eg sentiment analysis NLI semantic similarity sequence tagging tasks such asNER and span extraction tasks eg QA in whichthe newly

原文地址: https://www.cveoy.top/t/topic/doj3 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录