在选择max_norm时,应该考虑到两个因素:

  1. 模型的结构和复杂度:如果模型比较简单,则可以选择较小的max_norm,如果模型比较复杂,则需要选择较大的max_norm。

  2. 训练数据的性质:如果训练数据中存在一些异常值或噪声,那么需要选择较大的max_norm,以防止梯度爆炸。

一般来说,建议将max_norm设置为小于5.0的值。但具体的max_norm需要根据实际情况进行调整和选择。

函数clip_grad_norm_中的max_norm设为多大最好。

原文地址: https://www.cveoy.top/t/topic/NvP 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录