函数clip_grad_norm_中的max_norm设为多大最好。
在选择max_norm时,应该考虑到两个因素:
-
模型的结构和复杂度:如果模型比较简单,则可以选择较小的max_norm,如果模型比较复杂,则需要选择较大的max_norm。
-
训练数据的性质:如果训练数据中存在一些异常值或噪声,那么需要选择较大的max_norm,以防止梯度爆炸。
一般来说,建议将max_norm设置为小于5.0的值。但具体的max_norm需要根据实际情况进行调整和选择。
原文地址: https://www.cveoy.top/t/topic/NvP 著作权归作者所有。请勿转载和采集!