梯度剪裁函数clip_grad_norm_()中的max_norm应该根据具体情况而定,不能一概而论。一般来说,max_norm应该设置为一个合理的范围,既不能太小导致梯度无法更新,也不能太大导致梯度爆炸。在实际应用中,可以通过试验不同的max_norm值来找到最优的值。同时,还可以结合其他技巧如学习率的调整等来进一步优化模型的性能。

对于时序预测模型TFT来说梯度剪裁函数clip_grad_norm_中的max_norm设为多大最好。

原文地址: https://www.cveoy.top/t/topic/Nv0 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录