当前位置：首页 > news >正文

深度学习之第八课迁移学习（残差网络ResNet）

news 2025/9/6 14:04:29

简介

一、迁移学习

1.什么是迁移学习

2. 迁移学习的步骤

二、残差网络ResNet

1.了解ResNet

2.ResNet网络---残差结构

三、代码分析

1. 导入必要的库

2. 模型准备（迁移学习）

3. 数据预处理

4. 自定义数据集类

5. 数据加载器

6. 设备配置

7. 训练函数

8. 测试函数

9. 训练配置和执行

整体流程总结

简介

经过长久的卷积神经网络的学习、我们学习了如何提高模型的准确率，但是最终我们的准确率还是没达到百分之八十。原因是因为我们本身模型的局限，面对现有很多成熟的模型，它们有很好的效果，都是经过多次训练选取了最佳的参数，那我们能不能去使用哪些大佬的模型呢？

答案是可以的，这就使用到迁移学习的知识。

深度学习之第五课卷积神经网络 (CNN)如何训练自己的数据集（食物分类）

深度学习之第六课卷积神经网络 (CNN)如何保存和使用最优模型

深度学习之第七课卷积神经网络 (CNN)调整学习率

一、迁移学习

1.什么是迁移学习

迁移学习是指利用已经训练好的模型，在新的任务上进行微调。迁移学习可以加快模型训练速度，提高模型性能，并且在数据稀缺的情况下也能很好地工作。

2. 迁移学习的步骤

1、选择预训练的模型和适当的层：通常，我们会选择在大规模图像数据集（如ImageNet）上预训练的模型，如VGG、ResNet等。然后，根据新数据集的特点，选择需要微调的模型层。对于低级特征的任务（如边缘检测），最好使用浅层模型的层，而对于高级特征的任务（如分类），则应选择更深层次的模型。

2、冻结预训练模型的参数：保持预训练模型的权重不变，只训练新增加的层或者微调一些层，避免因为在数据集中过拟合导致预训练模型过度拟合。

3、在新数据集上训练新增加的层：在冻结预训练模型的参数情况下，训练新增加的层。这样，可以使新模型适应新的任务，从而获得更高的性能。

4、微调预训练模型的层：在新层上进行训练后，可以解冻一些已经训练过的层，并且将它们作为微调的目标。这样做可以提高模型在新数据集上的性能。

5、评估和测试：在训练完成之后，使用测试集对模型进行评估。如果模型的性能仍然不够好，可以尝试调整超参数或者更改微调层。

太多概念，我们直接使用残差网络进行迁移学习。

二、残差网络ResNet

1.了解ResNet

ResNet 网络是在 2015年由微软实验室中的何凯明等几位大神提出，斩获当年ImageNet竞赛中分类任务第一名，目标检测第一名。获得COCO数据集中目标检测第一名，图像分割第一名。

传统卷积神经网络存在的问题？

卷积神经网络都是通过卷积层和池化层的叠加组成的。在实际的试验中发现，随着卷积层和池化层的叠加，学习效果不会逐渐变好，反而出现2个问题：

1、梯度消失和梯度爆炸梯度消失：若每一层的误差梯度小于1，反向传播时，网络越深，梯度越趋近于0 梯度爆炸：若每一层的误差梯度大于1，反向传播时，网络越深，梯度越来越大

2、退化问题

如何解决问题？

为了解决梯度消失或梯度爆炸问题，论文提出通过数据的预处理以及在网络中使用 BN（Batch Normalization）层来解决。为了解决深层网络中的退化问题，可以人为地让神经网络某些层跳过下一层神经元的连接，隔层相连，弱化每层之间的强联系。这种神经网络被称为残差网络 (ResNets)。

实线为测试集错误率虚线为训练集错误率

2.ResNet网络---残差结构

ResNet的经典网络结构有：ResNet-18、ResNet-34、ResNet-50、ResNet-101、ResNet-152几种，其中，ResNet-18和ResNet-34的基本结构相同，属于相对浅层的网络，后面3种的基本结构不同于ResNet-18和ResNet-34，属于更深层的网络。

不论是多少层的ResNet网络，它们都有以下共同点：

网络一共包含5个卷积组，每个卷积组中包含1个或多个基本的卷积计算过程（Conv-> BN->ReLU）
每个卷积组中包含1次下采样操作，使特征图大小减半，下采样通过以下两种方式实现：
- 最大池化，步长取2，只用于第2个卷积组（Conv2_x）
- 卷积，步长取2，用于除第2个卷积组之外的4个卷积组
第1个卷积组只包含1次卷积计算操作，5种典型ResNet结构的第1个卷积组完全相同，卷积核均为7x7，步长为均2
第2-5个卷积组都包含多个相同的残差单元，在很多代码实现上，通常把第2-5个卷积组分别叫做Stage1、Stage2、Stage3、Stage4
首先是第一层卷积使用kernel 7∗7，步长为2，padding为3。之后进行BN，ReLU和maxpool。这些构成了第一部分卷积模块conv1。
然后是四个stage，有些代码中用make_layer()来生成stage，每个stage中有多个模块，每个模块叫做building block，resnet18= [2,2,2,2]，就有8个building block。注意到他有两种模块BasicBlock和Bottleneck。resnet18和resnet34用的是BasicBlock，resnet50及以上用的是Bottleneck。无论BasicBlock还是Bottleneck模块，都用到了残差连接(shortcut connection)方式：

下图以ResNet18为例介绍一下它的网络模型

layer1

ResNet18 ，使用的是 BasicBlock。layer1，特点是没有进行降采样，卷积层的 stride = 1，不会降采样。在进行 shortcut 连接时，也没有经过 downsample 层。

layer2，layer3，layer4

而 layer2，layer3，layer4 的结构图如下，每个 layer 包含 2 个 BasicBlock，但是第 1 个 BasicBlock 的第 1 个卷积层的 stride = 2，会进行降采样。在进行 shortcut 连接时，会经过 downsample 层，进行降采样和降维。

residual结构使用了一种shortcut的连接方式，也可理解为捷径。让特征矩阵隔层相加，注意F(X)和X形状要相同，所谓相加是特征矩阵相同位置上的数字进行相加。

一个残差块有2条路径 F(x)和 x，F(x) 路径拟合残差，可称之为残差路径；路径为`identity mapping`恒等映射，可称之为`shortcut`。图中的⊕为`element-wise addition`，要求参与运算的F(x) 和 x的尺寸要相同。

其中关键技术 Batch Normalization是对每一个卷积后进行标准化

Batch Normalization目的：使所有的feature map满足均值为0，方差为1的分布规律