TFT 时序预测模型:梯度剪裁函数 clip_grad_norm_() 中 max_norm 最佳设置
对于时序预测模型 TFT 来说,梯度剪裁函数 clip_grad_norm_() 中的 max_norm 应该根据具体情况进行调整。一般来说,max_norm 的取值应该在 1 到 5 之间,如果取值太小,则可能会导致梯度消失问题,模型无法收敛;如果取值太大,则可能会导致梯度爆炸问题,模型无法稳定训练。因此,需要根据具体的数据集和模型架构进行调整,可以通过实验来找到最优的 max_norm 取值。
原文地址: http://www.cveoy.top/t/topic/l5CY 著作权归作者所有。请勿转载和采集!