这种方法并不是同时对所有数据进行归一化处理而是把数据划分为若干个批次对每个批次的数据进行归一化处理

然后再把归一化后的数据合并起来。这种方法被称为批量归一化（Batch Normalization）。

批量归一化的思路是，在神经网络的每一层中，对每个特征维度进行归一化处理，使得每个特征维度的均值为0，方差为1。具体来说，对于一个大小为m×n的输入矩阵X，批量归一化的操作可以表示为：

$$\hat{X} = \frac{X - \mu}{\sqrt{\sigma^2+\epsilon}}$$

其中，$\mu$和$\sigma^2$分别是X矩阵中每个特征维度的均值和方差，$\epsilon$是一个很小的常数，用来避免分母为0的情况。

然后，对于每个特征维度，再乘以一个可学习的缩放因子$\gamma$，再加上一个可学习的平移因子$\beta$，得到最终的输出：

$$Y = \gamma \hat{X} + \beta$$

其中，$\gamma$和$\beta$都是可学习的参数，可以通过反向传播算法来更新。

批量归一化的优点是，可以加速训练过程，提高模型的泛化能力，避免梯度消失和梯度爆炸等问题。此外，批量归一化还可以作为一种正则化方法，降低过拟合的风险。

总之，批量归一化是一种非常实用的技术，可以帮助我们训练更加稳定、准确的神经网络模型。