梯度剪裁函数 clip_grad_norm_() 中的 max_norm 应该根据具体情况而定,不能一概而论。一般来说,max_norm 应该设置为一个合理的范围,既不能太小导致梯度无法更新,也不能太大导致梯度爆炸。在实际应用中,可以通过试验不同的 max_norm 值来找到最优的值。同时,还可以结合其他技巧如学习率的调整等来进一步优化模型的性能。

TFT 时序预测模型:如何设置梯度剪裁函数 clip_grad_norm_() 中的 max_norm?

原文地址: http://www.cveoy.top/t/topic/l5CR 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录