Sigmoid 函数的导函数为 fx = fx1 - fx 其中 fx = 1 1 + e^-x对导函数进行求导得到 fx = fx1 - fx1 - 2fx因此 导函数的值域为 0 14当神经网络层数较多时 梯度会逐渐变小 乘以 Sigmoid 导函数的值域后会趋近于 0 导致梯度消失问题 这是因为 Sigmoid 导函数的值域在 0 14 之间 当输入值较大或较小时 导函数的值会非常接近于
当神经网络层数较多时,梯度会逐渐变小,乘以Sigmoid导函数的值域后会趋近于$0$,导致梯度消失问题。这是因为Sigmoid导函数的值域在$[0,1/4]$之间,当输入值较大或较小时,导函数的值会非常接近于$0$或$1$,这会导致反向传播时梯度趋近于$0$,无法更新网络参数。因此,在深度神经网络中,通常采用其他激活函数,如ReLU、LeakyReLU、ELU等,来避免梯度消失问题。
原文地址: https://www.cveoy.top/t/topic/fa70 著作权归作者所有。请勿转载和采集!