翻译:The simplest approach to using large pre-trainedlanguage models is to freeze the model and useits output as sophisticated context-sensitive wordembeddings for a subsequent architecture whichis trai
使用大型预训练语言模型的最简单方法是“冻结”模型,并将其输出作为复杂的上下文敏感的单词嵌入,用于后续从头开始训练的架构。换句话说,虽然这仍然涉及通过输入文本对预训练语言模型进行前向传递,但是语言模型的权重不会被微调,从而使这种方法更接近经典统计自然语言处理中的特征提取方法。使用冻结的PLM有三种场景。
在标记数据不足或计算能力不足的情况下,会使用“冻结”的上下文嵌入。对于非基准任务,唯一的标记训练数据集太小,无法微调BERT-base甚至更大的模型的顶层。微调整个PLM的计算成本对于某些应用程序或开发人员可能是禁止性的,导致使用更高效的冻结PLM解决方案。关于微调的其他数据高效和时间高效的方法在第2.4.4节中讨论。
高度复杂或困难的NLP任务通常使用冻结的PLM技术来帮助降低训练复杂性。例如,Zhang等人(2020c)使用冻结的BERT嵌入来引导一种创新的条件随机场(CRF)建模方法(Lafferty等人,2001),将内部-外部算法替换为反向传播,并使用两步过程首先分隔再标记解析,以及CKY算法的批量版本。对于这些复杂的任务,可能只有足够的数据或计算能力可用于训练二级模型(Zhang等人(2019b)引用了计算能力的限制)。虽然目前流行使用冻结的PLM参数进行这些任务,可能是由于研究人员偏好简单性以及计算要求,但对于具有足够训练数据的任务,我们可能会看到向全模型微调的转变。
无监督任务,例如词义消歧(Hadiwinoto等人,2019)和词义感应(Amrami和Goldberg,2019),不与用于微调的监督数据集相关联。相反,冻结的BERT嵌入会通过各种策略传递,例如最近邻匹配、仿射变换、门控线性单元(GLU,Dauphin等人,2017)或聚类算法来执行这些任务
原文地址: https://www.cveoy.top/t/topic/dof6 著作权归作者所有。请勿转载和采集!