当前位置：首页 > news >正文

一文读懂迁移学习：从理论到实践

news 2025/7/13 6:54:25

在机器学习和深度学习的快速发展历程中，数据和计算资源成为了制约模型训练的关键因素。当我们面对新的任务时，重新训练一个从头开始的模型往往耗时耗力，而且在数据量不足的情况下，模型的性能也难以达到理想状态。这时，迁移学习作为一种强大的技术应运而生，它能够帮助我们复用已有的知识，快速且高效地解决新问题。本文将带大家深入了解迁移学习，从基本概念、核心思想，到实际应用和代码实现，全方位剖析这一技术。

一、迁移学习基础概念

迁移学习（Transfer Learning），顾名思义，就是将从一个领域（源领域，Source Domain）学习到的知识迁移到另一个领域（目标领域，Target Domain），以帮助目标领域的学习。在传统的机器学习中，我们通常假设训练数据和测试数据服从相同的分布，但在现实世界中，这个假设往往难以满足。迁移学习打破了这一限制，允许源领域和目标领域的数据分布、任务甚至特征有所不同，通过知识迁移，让模型在目标领域中也能有良好的表现。

举个通俗易懂的例子，就像我们学习骑自行车的经验可以迁移到学习骑摩托车上。虽然自行车和摩托车是不同的交通工具，但在平衡控制、方向把握等方面的知识是相通的。在机器学习中，比如我们已经训练好了一个识别猫狗的图像分类模型（源领域），现在想要构建一个识别鸟类的模型（目标领域），就可以利用迁移学习，将识别猫狗模型中学习到的图像特征提取能力等知识迁移过来，加快鸟类识别模型的训练速度并提升性能。

根据源领域和目标领域的不同，迁移学习可以分为以下几种类型：

同构迁移学习：源领域和目标领域的数据具有相同的特征空间和数据分布，但任务不同。例如，从识别手写数字 0 - 9 的任务迁移到识别字母 A - Z 的任务。

异构迁移学习：源领域和目标领域的数据具有不同的特征空间或数据分布。比如，将从图像领域学习到的知识迁移到文本领域。

跨任务迁移学习：源领域和目标领域的任务类型不同，如从图像分类任务迁移到图像分割任务。

二、迁移学习的核心思想与优势

迁移学习的核心思想是挖掘和利用源领域中与目标领域相关的知识，并将其适配到目标领域。在深度学习中，常用的迁移学习方法是基于预训练模型。预训练模型通常在大规模的通用数据集（如 ImageNet 图像数据集、Wikipedia 文本数据集等）上进行训练，学习到了丰富的通用特征和模式。当我们面对新的任务时，不需要重新训练整个模型，而是在预训练模型的基础上，通过微调（Fine - Tuning）等操作，使模型适应新任务。

具体来说，微调就是固定预训练模型的大部分参数，只对模型的最后几层（通常是分类层）进行重新训练。这样做的好处在于，预训练模型已经学习到了数据的底层通用特征，如在图像领域，模型已经学会了识别边缘、纹理等基本特征，我们只需在目标任务上训练模型对特定类别进行分类的能力，大大减少了训练时间和数据需求。

迁移学习的优势主要体现在以下几个方面：

减少训练时间和资源消耗：无需从头开始训练模型，利用已有的预训练模型，能够在短时间内完成新模型的训练，降低了对计算资源的需求。

提高模型性能：在目标领域数据量较少的情况下，迁移学习可以借助源领域的知识，避免模型出现过拟合现象，从而提升模型在目标任务上的泛化能力和性能。

扩大模型应用范围：使得在一个领域训练好的模型能够应用到其他不同但相关的领域，为解决各种实际问题提供了更多可能性。

三、迁移学习代码实践（以图像分类为例）

接下来，我们通过一个基于 Python 和 PyTorch 框架的图像分类实例，来演示如何使用迁移学习。我们将使用预训练的 ResNet18 模型，并在 CIFAR - 10 数据集上进行微调。

首先，安装必要的库：

pip install torch torchvision

然后，编写代码：

import torchimport torch.nn as nnimport torchvisionimport torchvision.transforms as transformsfrom torch.utils.data import DataLoader# 数据预处理transform = transforms.Compose([transforms.Resize((224, 224)), # 调整图像大小为ResNet18所需的输入尺寸transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])# 加载CIFAR-10数据集trainset = torchvision.datasets.CIFAR10(root='./data', train=True,download=True, transform=transform)trainloader = DataLoader(trainset, batch_size=32, shuffle=True)testset = torchvision.datasets.CIFAR10(root='./data', train=False,download=True, transform=transform)testloader = DataLoader(testset, batch_size=32, shuffle=False)# 加载预训练的ResNet18模型model = torchvision.models.resnet18(pretrained=True)# 冻结除最后一层之外的所有层for param in model.parameters():param.requires_grad = False# 修改最后一层全连接层，以适应CIFAR-10的10个类别num_ftrs = model.fc.in_featuresmodel.fc = nn.Linear(num_ftrs, 10)# 定义损失函数和优化器criterion = nn.CrossEntropyLoss()optimizer = torch.optim.SGD(model.fc.parameters(), lr=0.001, momentum=0.9)# 训练模型num_epochs = 10for epoch in range(num_epochs):running_loss = 0.0for i, data in enumerate(trainloader, 0):inputs, labels = dataoptimizer.zero_grad()outputs = model(inputs)loss = criterion(outputs, labels)loss.backward()optimizer.step()running_loss += loss.item()print(f'Epoch {epoch + 1}, Loss: {running_loss / len(trainloader)}')# 测试模型correct = 0total = 0with torch.no_grad():for data in testloader:images, labels = dataoutputs = model(images)_, predicted = torch.max(outputs.data, 1)total += labels.size(0)correct += (predicted == labels).sum().item()print(f'Accuracy of the network on the 10000 test images: {100 * correct / total}%')

在上述代码中，我们首先对 CIFAR - 10 数据集进行预处理，然后加载预训练的 ResNet18 模型，并冻结除最后一层之外的所有参数。接着，修改最后一层全连接层以适应 CIFAR - 10 的分类任务，定义损失函数和优化器进行训练，最后在测试集上评估模型的性能。