当前位置：首页 > ds >正文

《Deep Residual Learning for Image Recognition》（深度残差学习在图像识别中的应用）

ds 2025/7/7 2:29:35

这篇《Deep Residual Learning for Image Recognition》（深度残差学习在图像识别中的应用）是深度学习领域一篇里程碑式的论文，它的核心思想——残差网络（ResNet）——至今仍然是各种先进模型的基础。

我会用最通俗易懂的方式为你解构这篇论文。

一句话总结

这篇论文提出了一种全新的神经网络结构——残差网络（ResNet），通过引入“快捷连接”（Skip Connection），巧妙地解决了“网络越深，训练越难”的**“网络退化”**问题，使得构建数百层甚至上千层的超深神经网络成为可能。

1. 解决了什么核心问题？——“网络退化” (Degradation)

在ResNet出现之前，大家普遍认为，神经网络越深，提取的特征就越复杂、越丰富，模型性能也应该越好。但实验发现了一个奇怪的现象：

当网络深度增加到一定程度后（比如从20层增加到56层），模型的准确率反而下降了。
关键是：这种性能下降不是过拟合（Overfitting）导致的。因为不仅测试集上的误差变高了，连训练集上的误差也变高了。这意味着，更深的网络连在训练数据上拟合得都更差了。

这个现象就是**“网络退化”（Degradation）**问题。它说明，一个更深的网络，其训练难度急剧增加，优化算法很难找到一个好的解，甚至连“复制”一个较浅网络的性能都做不到。

举个例子：理论上，一个56层的网络，至少可以学到一个和20层网络一样好的结果。最差的情况是：前20层复制那个训练好的20层网络，后面36层什么都不做，只做“恒等映射”（Identity Mapping），即输入是什么，输出就是什么。但实际情况是，优化器（如SGD）很难让那36层学会什么都不做，导致整体效果变差。

2. 核心思想是什么？——“残差学习” (Residual Learning)

为了解决“网络退化”问题，作者何恺明等人提出了“残差学习”的核心思想。

传统网络的思路是：
让一层或多层网络直接学习一个目标映射 H(x)。比如，输入是 x，我们希望网络的输出是 H(x)。

ResNet的思路是：
我们不直接学习目标 H(x)，而是学习一个**“残差”（Residual）**，即 F(x) = H(x) - x。

这样，原来的目标就变成了 H(x) = F(x) + x。这个 + x 的操作，就是通过一条“快捷连接”（Skip Connection 或 Shortcut）实现的。它把输入 x 直接跳过多层网络，加到后面网络的输出上。

这么做有什么好处？

这正是ResNet的精髓所在！

学习目标变简单了：我们回到之前“网络退化”的例子。如果某个深层网络的一部分已经是冗余的，即我们希望它什么都不做，只进行“恒等映射”（H(x) = x），那么：
- 传统网络：需要让好几层复杂的非线性网络（带ReLU激活函数）去拟合一个 y = x 的线性函数。这对于优化器来说非常困难。
- ResNet：只需要让残差部分 F(x) 的输出为 0 即可。因为 H(x) = F(x) + x，当 F(x) = 0 时，H(x) = x，恒等映射就轻松实现了。让一个网络的权重趋向于0，比让它拟合一个恒等映射要容易得多。

一个绝妙的比喻：
把学习过程比作学生做题。

传统网络：像一个新手，每次都从头开始解一道复杂的题（学习H(x)）。
ResNet：像一个有基础的学生，他手上已经有了一份参考答案（输入x）。老师不让他从头做，而是让他找出参考答案和标准答案之间的“差”（学习残差F(x)）。如果参考答案已经很完美了，他只需要说“没差别”（输出0）就行了，非常省力。

这条“快捷连接”就像一条高速公路，保证了原始信息（x）可以无损地传递到深层。而网络层（F(x)）只需要在旁边的小路上学习如何对主路信息进行微调和补充，大大降低了学习负担。

3. 这篇论文的贡献与影响

解决了网络退化问题：首次成功训练了超过100层，甚至1000层的超深神经网络，并取得了优异的性能。
赢得了多项竞赛冠军：ResNet在2015年的ImageNet大规模视觉识别挑战赛（ILSVRC）中，包揽了图像分类、目标检测、图像定位等多个项目的冠军，展现了其强大的实力。
成为现代深度学习的基石：残差连接的思想极为深刻和有效，它已经成为设计现代深度神经网络（不仅限于CV领域）的一个标准组件。无论是后来的DenseNet、ResNeXt，还是NLP领域的Transformer（其内部也大量使用了类似的思想），都受到了ResNet的启发。
改变了研究范式：它让研究者们不再仅仅关注于“加宽”或“加深”网络，而是开始思考如何设计更有效的“信息流路径”，让梯度能够更顺畅地在深层网络中传播。