残差网络 (ResNet) 结构详解：跳跃连接如何解决梯度问题

图2.4(a) 为残差网络中残差单元的示意图，残差单元通过堆叠若干权重层的同时采用跳跃式连接，图中 X 为残差单元的输入，F(X) 为经过权重层的输出特征。F(X) + X 是通过跳跃连接的前馈神经网络来实现，残差单元将输入以跳跃的方式与输出相加，将底层输出表示为 H(x) = F(x) + x，通过堆叠的非线性层拟合 F(x) = H(x) - x，再经过 ReLU 激活函数激活。跳跃连接的方式既不增加额外的参数，也不增加计算的复杂性。整个网络仍然可以通过具有反向传播的 SGD 进行端到端训练。

图2.4(b) 为残差网络的整体结构示意图，由多个残差单元堆叠而成，其中每个残差单元由两个 3x3 卷积层组成，每个卷积层后接一个批标准化层和 ReLU 激活函数。整个网络还包含一个初始卷积层和一个全局平均池化层，最后接一个全连接层进行分类。

残差网络的设计思想在于通过跳跃连接来解决深度神经网络中的梯度消失和梯度爆炸问题，从而使得网络可以更深更容易训练。实验证明，在 ImageNet 数据集上，使用残差网络可以显著提高分类精度，同时也可以在更深的网络中获得更好的表现。