逐层归一化有哪些方法请结合公式加以综述并说明为什么逐层归一化在深度神经网络的训练中起到了关键作用

逐层归一化（Layer Normalization）是通过对每个神经网络的隐藏层进行归一化，来减少网络训练过程中的内部协变量偏移（Internal Covariate Shift）。逐层归一化有以下几种方法：

以上三种方法的公式如下：

Batch Normalization：

$$BN(x) = \gamma\frac{x - \mu_B}{\sqrt{\sigma^2_B + \epsilon}} + \beta$$

其中，$\mu_B$和$\sigma^2_B$分别表示mini-batch中所有样本的均值和方差，$\gamma$和$\beta$为可学习参数，$\epsilon$为一个极小值，防止分母为0。

Instance Normalization：

$$IN(x) = \gamma\frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta$$

其中，$\mu$和$\sigma^2$分别表示每个样本的均值和方差。

Group Normalization：

$$GN(x) = \gamma\frac{x - \mu_G}{\sqrt{\sigma^2_G + \epsilon}} + \beta$$

其中，$\mu_G$和$\sigma^2_G$分别表示每组数据的均值和方差，组数可以自行指定。

逐层归一化在深度神经网络的训练中起到了关键作用，主要有以下几点：

解决内部协变量偏移问题：由于深度神经网络的前向传播过程中每层的输入分布都会发生变化，导致每层的网络参数都需要不断地调整，这就是内部协变量偏移问题。逐层归一化可以通过对每层的输入进行归一化处理，使得每层的输入分布更加稳定，从而减少内部协变量偏移问题。
提高网络泛化能力：逐层归一化可以减少网络训练过程中的过拟合现象，提高网络的泛化能力。
使得网络更快地收敛：逐层归一化可以使得网络更快地收敛，减少网络训练时间。

总之，逐层归一化是深度神经网络中非常重要的一种技术，能够有效地解决内部协变量偏移问题，提高网络泛化能力，加速网络训练过程。