对于时序预测模型 TFT 来说,梯度剪裁函数 clip_grad_norm_() 中的 max_norm 需要根据具体情况进行调整。一般来说,max_norm 的值需要根据模型的复杂度、训练数据的大小以及训练时间等因素进行综合考虑。如果 max_norm 设置得太小,可能会导致梯度消失或梯度爆炸的问题,从而影响模型的训练效果;如果 max_norm 设置得太大,可能会导致过拟合的问题,从而影响模型的泛化能力。因此,建议根据具体情况进行调整,一般可以尝试设置在 1 到 5 之间的数值。

TFT 模型梯度剪裁:clip_grad_norm_() 中 max_norm 的最佳设置

原文地址: http://www.cveoy.top/t/topic/l5C3 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录