5 逐层归一化有哪些方法请结合公式加以综述并说明为什么逐层归一化在深度神经网络的训练中起到了关键作用

逐层归一化有以下几种方法：

Batch Normalization (BN): BN是最早被提出的逐层归一化方法，它在每个批次中对每个特征进行归一化，以使其均值为0，标准差为1。BN的公式如下：

$$\hat{x}=\frac{x-\mu}{\sqrt{\sigma^2+\epsilon}}$$

其中，$\mu$和$\sigma$分别是当前批次中特征的均值和标准差，$\epsilon$是一个很小的数用来避免分母为0的情况。$\hat{x}$是归一化后的特征。

$$\hat{x}=\frac{x-\mu}{\sqrt{\sigma^2+\epsilon}}$$

其中，$\mu$和$\sigma$分别是当前样本中特征的均值和标准差，$\epsilon$是一个很小的数用来避免分母为0的情况。$\hat{x}$是归一化后的特征。

Instance Normalization (IN): IN是针对图像处理任务而提出的逐层归一化方法，它在每个样本的每个通道上进行归一化，以使其均值为0，标准差为1。IN的公式如下：

$$\hat{x}=\frac{x-\mu}{\sqrt{\sigma^2+\epsilon}}$$

其中，$\mu$和$\sigma$分别是当前样本中每个通道的均值和标准差，$\epsilon$是一个很小的数用来避免分母为0的情况。$\hat{x}$是归一化后的特征。

逐层归一化在深度神经网络的训练中起到了关键作用，原因如下：

避免梯度消失和梯度爆炸：在深度神经网络中，梯度消失和梯度爆炸是一个普遍存在的问题。逐层归一化可以使得每个层的输入都保持在一个较小的范围内，从而避免梯度消失和梯度爆炸。
提高模型收敛速度：逐层归一化可以使得模型的输入具有更好的分布特性，从而使得模型收敛更快。
提高模型的泛化性能：逐层归一化可以减少模型对输入数据分布的敏感度，从而提高模型的泛化性能。