当前位置：首页 > ds >正文

深度学习预训练和微调

ds 2025/7/15 23:45:15

1. 预训练（Pre-training）是什么？

2. 微调（Fine-tuning）是什么？

3. 预训练和微调的对象

4. 特征提取如何实现？

预训练阶段：

微调阶段：

5. 这样做的作用和意义

6. 简单代码示例（PyTorch风格）

预训练用于特征提取

微调用于特征提取优化

具体操作步骤

7.总结

1. 预训练（Pre-training）是什么？

定义：在大型通用数据集（如MS-Celeb-1M）上训练一个模型，使其学习通用的特征表示（例如人脸的特征向量）。
例子：
- 数据集：MS-Celeb-1M（包含100万名人脸图像，用于人脸识别任务）。
- 目标：训练一个模型（如ResNet、ArcFace）学习如何提取人脸的通用特征（例如五官结构、光照不变性等）。
- 预训练的输出：得到一个初步的神经网络模型，它的权重已经能较好地表征人脸特征。
为什么预训练？
- 大数据的预训练能让模型学到更鲁棒的特征，避免从小数据（如VoxCeleb1）从头训练导致的过拟合。
- 例如，就像先让一个人阅读大量的不同类型的书籍（相当于用大规模数据预训练），目的是让这个人（模型）先掌握一些通用的知识（面部特征的通用表示），比如面部的轮廓、五官的基本形状特征等知识。

2. 微调（Fine-tuning）是什么？

定义：在预训练模型的基础上，用特定任务的小数据集（如VoxCeleb1）进一步调整模型参数，使其适应新任务。
你的例子：
- 数据集：VoxCeleb1（包含说话人视频，用于声纹识别或人脸+语音的多模态任务）。
- 操作：
  1. 保留预训练模型的底层结构（如卷积层，因底层通常提取通用特征如边缘、纹理）。
  2. 修改顶层（如全连接层），适应新任务的类别数（例如VoxCeleb1的说话人ID）。
  3. 用VoxCeleb1的数据微调模型，调整权重以适应新数据分布。
为什么微调？
- 直接训练小数据效果差，而预训练模型提供了更好的初始化，微调只需少量数据即可达到高性能。
- 就好像那个已经读过很多书的人（预训练过的模型），现在需要针对某个特定领域的知识（VoxCeleb1数据集所代表的特定任务，如可能的声纹 - 面部关联等任务）进行重点学习和复习（微调），以便更好地完成这个特定任务。

3. 预训练和微调的对象

预训练的内容：
- 模型结构：通常是CNN（如ResNet）或Transformer（如ViT）。
- 学习到的参数：卷积核权重、全连接层参数等。
- 目标函数：人脸识别常用ArcFace Loss或Softmax Loss。
微调的内容：
- 分类头重置：替换最后的全连接层（输出维度改为VoxCeleb的说话人数量）。
- 参数调整：
  - 方案1：全部层微调（数据充足时）。
  - 方案2：冻结浅层（仅调深层，防止小数据过拟合）。

4. 特征提取如何实现？

预训练阶段：

模型选择：选一个特征提取网络（如ResNet50、FaceNet）。
损失函数：用人脸识别常用的损失（如ArcFace、Triplet Loss），迫使模型学习区分不同人脸的特征。
输出：模型最后一层前的特征（如512维向量）即为提取的人脸特征。

微调阶段：

迁移特征提取器：将预训练模型的卷积部分（特征提取器）直接迁移到新任务。
调整分类层：替换顶层分类器，匹配VoxCeleb1的类别数（如1251个说话人）。
选择性训练：
- 方案1：仅训练顶层（特征提取器固定，适用于数据极少的情况）。
- 方案2：全部层微调（数据较多时效果更好）。

5. 这样做的作用和意义

作用：
- 提升小数据任务的性能（VoxCeleb1的数据量远小于MS-Celeb-1M）。
- 节省计算资源（无需从头训练）。
意义：
- 特征可迁移性：预训练模型学到的底层特征（如边缘、纹理）对多数视觉任务通用。
- 避免过拟合：小数据直接训练易记住噪声，预训练模型提供了正则化效果。

6. 简单代码示例（PyTorch风格）

# 预训练模型加载（以人脸识别为例）
pretrained_model = torchvision.models.resnet50(pretrained=False)
pretrained_model.load_state_dict(torch.load('msceleb_pretrained.pth'))

# 微调：替换顶层并训练
num_classes = 1251  # VoxCeleb1的说话人数
pretrained_model.fc = nn.Linear(pretrained_model.fc.in_features, num_classes)

# 只微调顶层（可选）
for param in pretrained_model.parameters():param.requires_grad = False
pretrained_model.fc.requires_grad = True

# 特征提取（不训练时）
features = pretrained_model.conv_layers(input_image)

预训练用于特征提取

过程：在大规模数据集（如 MS - Celeb - 1M）上预训练模型，让模型学习到通用的面部特征表示。在这个阶段，模型会自动提取出图像中诸如边缘、纹理、轮廓等基础特征，以及更高层次的语义特征，比如面部的各个组成部分（眼睛、鼻子、嘴巴等）的位置和形状特征，这些特征在人脸识别相关的任务中具有通用性。
作用：得到一个具有较强特征提取能力的模型，它能够将输入的面部图像转换为具有一定语义意义的特征向量。这些特征向量可以作为后续任务（如在 VoxCeleb1 数据集上的声纹 - 面部关联任务等）的输入，为后续任务提供丰富的特征表示，减少了在新任务上从头开始训练模型提取特征的时间和资源消耗。

微调用于特征提取优化

过程：当在 VoxCeleb1 数据集上进行微调时，会基于预训练模型提取的特征，进一步调整模型的参数，使其更好地适应 VoxCeleb1 数据集的特点和任务需求。例如，在声纹 - 面部关联任务中，微调可以使模型更关注那些对于关联判断重要的面部特征，如面部的动态表情变化特征（如果视频中有面部表情变化）或者与声纹特征相关联的面部肌肉运动特征等。
作用：优化后的特征提取模型能够更精准地提取出与 VoxCeleb1 任务相关的特征，提高任务的性能。这是因为微调过程让模型在预训练的基础上，结合新数据集的特定信息，对特征提取的重点和细节进行了调整，使特征更能反映新任务中的关键信息。

具体操作步骤

预训练阶段（以面部特征提取为例在 MS - Celeb - 1M 数据集上） ：
- 数据准备 ：收集、清洗和预处理 MS - Celeb - 1M 数据集中的面部图像，包括图像的标准化（调整大小、像素值归一化等）、数据增强（旋转、翻转、裁剪等）操作，以增加数据的多样性和模型的泛化能力。
- 模型构建 ：选择合适的深度学习架构，如卷积神经网络（CNN）。可以使用常见的网络结构如 ResNet、VGG 等，确定网络的层数、每层的神经元数量、卷积核大小、激活函数等超参数。
- 训练模型 ：将预处理后的 MS - Celeb - 1M 数据输入到构建的模型中，设置合适的训练参数，如学习率、批次大小、训练的迭代次数等。通过优化算法（如随机梯度下降 SGD 或 Adam）来更新模型的权重参数，使模型在 MS - Celeb - 1M 数据集上学习到良好的面部特征表示。在训练过程中，可以使用损失函数（如交叉熵损失等）来衡量模型输出与真实标签之间的差异，并通过反向传播来调整模型参数。
- 保存预训练模型 ：在预训练完成后，保存模型的结构和权重参数，以便后续在 VoxCeleb1 数据集上进行微调。
微调阶段（在 VoxCeleb1 数据集上用于特定特征提取任务） ：
- 数据准备 ：收集和预处理 VoxCeleb1 数据集。对于视频数据，可以提取视频中的关键帧作为面部图像输入，同时对音频进行特征提取（如梅尔频谱特征等），并整理好相应的标签（如声纹 - 面部是否关联等）。
- 加载预训练模型 ：将之前保存的在 MS - Celeb - 1M 数据集上预训练得到的模型加载到训练环境中。
- 修改模型（如果需要） ：根据 VoxCeleb1 数据集的任务需求，对模型的输出层或者部分中间层进行修改。例如，如果任务是声纹 - 面部关联的二分类任务，可以将预训练模型的输出层修改为两个神经元的全连接层；如果需要融合音频和视频特征，可以添加融合模块来整合预训练模型提取的面部特征和音频特征。
- 微调训练 ：使用 VoxCeleb1 数据集对修改后的模型进行训练。此时，学习率通常会比预训练时小，因为模型已经在预训练阶段学习到了很多通用的特征，微调阶段主要是对模型进行小幅度的调整。通过优化算法对模型的权重进行更新，使模型能够适应 VoxCeleb1 数据集的特定特征和任务。在训练过程中，可以使用验证集来评估模型的性能，防止过拟合，并在适当的时机停止训练（如使用早停策略）。
- 特征提取与应用 ：在微调完成后，可以使用该模型对 VoxCeleb1 数据集中的面部图像进行特征提取，得到优化后的特征向量。这些特征向量可以用于后续的任务，如声纹 - 面部关联判断，通过计算提取的面部特征与声纹特征之间的相似度等方法来完成任务。