当前位置：首页 > java >正文

Day39 训练

java 2025/6/28 21:48:22

Day39 训练

- 图像数据的特性与预处理
- 神经网络模型的构建
- 显存管理与优化
- 总结

在深度学习的旅程中，图像数据处理是一个令人兴奋且关键的领域。今天，我将带大家深入探讨图像数据的特性、预处理方法，以及如何基于此构建和优化神经网络模型。

图像数据的特性与预处理

图像数据与结构化数据有着本质的不同。结构化数据通常以一维向量的形式存在，例如一个表格数据可能形状为（样本数，特征数）。而图像数据则更为复杂，它包含空间信息，因此需要以三维形式（宽，高，通道数）来表示。对于灰度图像，如经典的MNIST手写数字数据集，其形状为（28，28，1），表示图像的尺寸为28×28像素，且只有一个颜色通道。

在PyTorch中，图像数据的形状遵循（通道数，高度，宽度）的格式，这与其他一些库（如NumPy）的（高度，宽度，通道数）格式不同。这一点在数据预处理和可视化时需要特别注意。

# MNIST数据集加载与可视化示例
transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.1307,), (0.3081,))
])train_dataset = datasets.MNIST(root='./data',train=True,download=True,transform=transform
)sample_idx = torch.randint(0, len(train_dataset), size=(1,)).item()
image, label = train_dataset[sample_idx]def imshow(img):img = img * 0.3081 + 0.1307npimg = img.numpy()plt.imshow(npimg[0], cmap='gray')plt.show()print(f"Label: {label}")
imshow(image)

对于彩色图像，如CIFAR-10数据集，其形状为（3，32，32），表示有三个颜色通道（RGB），图像尺寸为32×32像素。在使用matplotlib显示彩色图像时，需要将维度顺序从（通道，高，宽）转换为（高，宽，通道）。

# CIFAR-10数据集加载与可视化示例
transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])trainset = torchvision.datasets.CIFAR10(root='./data',train=True,download=True,transform=transform
)sample_idx = torch.randint(0, len(trainset), size=(1,)).item()
image, label = trainset[sample_idx]def imshow(img):img = img / 2 + 0.5npimg = img.numpy()plt.imshow(np.transpose(npimg, (1, 2, 0)))plt.axis('off')plt.show()print(f"图像形状: {image.shape}")
print(f"图像类别: {classes[label]}")
imshow(image)

神经网络模型的构建

基于图像数据的特性，我们构建了一个简单的多层感知机（MLP）模型来处理MNIST数据集。

class MLP(nn.Module):def __init__(self):super(MLP, self).__init__()self.flatten = nn.Flatten()self.layer1 = nn.Linear(784, 128)self.relu = nn.ReLU()self.layer2 = nn.Linear(128, 10)def forward(self, x):x = self.flatten(x)x = self.layer1(x)x = self.relu(x)x = self.layer2(x)return xmodel = MLP()
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

在这个模型中，我们首先使用nn.Flatten()将28×28的图像展平为784维向量，以适配全连接层的输入要求。第一个全连接层将784维输入映射到128维，然后通过ReLU激活函数引入非线性。第二个全连接层将128维映射到10维，对应10个数字类别。

对于彩色图像数据集，如CIFAR-10，模型结构类似，但输入尺寸为（3，32，32），以匹配RGB三通道和32×32的图像尺寸。

class MLP(nn.Module):def __init__(self, input_size=3072, hidden_size=128, num_classes=10):super(MLP, self).__init__()self.flatten = nn.Flatten()self.fc1 = nn.Linear(input_size, hidden_size)self.relu = nn.ReLU()self.fc2 = nn.Linear(hidden_size, num_classes)def forward(self, x):x = self.flatten(x)x = self.fc1(x)x = self.relu(x)x = self.fc2(x)return xmodel = MLP()
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

在PyTorch中，模型定义不依赖于batch_size。无论batch_size设置为多大，模型结构和输入尺寸的写法都是不变的。这使得模型具有很好的灵活性和可扩展性。

显存管理与优化

显存管理是深度学习模型训练中的一个关键因素。显存被以下内容占用：

模型参数与梯度：模型的权重和对应的梯度会占用显存。对于一个有101,770个参数的模型，单精度（float32）参数占用约403KB，加上梯度则翻倍至806KB。
优化器状态：部分优化器（如Adam）会为每个参数存储动量和平方梯度，进一步增加显存占用。例如，Adam优化器会增加约806KB的显存占用。
数据批量（batch_size）的显存占用：批量数据的显存占用与batch_size成正比。例如，batch_size=64时，数据占用约192KB；batch_size=1024时，数据占用约3MB。
前向/反向传播中间变量：中间变量的显存占用相对较小，但也会随着batch_size的增加而增加。

在实际应用中，合适的batch_size是显存允许的最大值乘以0.8（预留安全空间），并通过训练效果验证调整。大规模数据集训练时，从较小的batch_size开始测试，逐步增加以找到最优值。

# 定义数据加载器
train_loader = DataLoader(dataset=train_dataset,batch_size=64,shuffle=True
)test_loader = DataLoader(dataset=test_dataset,batch_size=1000,shuffle=False
)