当前位置：首页 > backend >正文

Day38 训练

backend 2025/7/13 22:07:39

Day38 训练

- 一、数据预处理与MNIST数据集
- 二、Dataset类：定义数据的内容和格式
- 三、DataLoader类：定义数据的加载方式和批量处理逻辑
- 四、Dataset与DataLoader的职责分工
- 五、总结

下面是一篇关于PyTorch中Dataset和DataLoader的博客文章，基于你提供的内容：

在深度学习项目中，高效地处理和加载大规模数据集是至关重要的。今天，让我们一起深入探索PyTorch中两个核心的数据处理工具：Dataset和DataLoader。

一、数据预处理与MNIST数据集

首先，我们需要对数据进行预处理。对于经典的MNIST手写数字数据集（包含60000张训练图片和10000张测试图片，每张图片大小为28×28像素，共10个类别），我们使用transforms.Compose创建了一个预处理管道：

transform = transforms.Compose([transforms.ToTensor(),  # 转换为张量并归一化到[0,1]transforms.Normalize((0.1307,), (0.3081,))  # 使用MNIST数据集的均值和标准差进行标准化
])

然后，我们使用torchvision.datasets.MNIST加载数据集：

train_dataset = datasets.MNIST(root='./data',train=True,download=True,transform=transform
)test_dataset = datasets.MNIST(root='./data',train=False,transform=transform
)

二、Dataset类：定义数据的内容和格式

Dataset类是PyTorch中所有数据集的基类。它定义了数据的内容和格式，主要包括：

数据存储路径/来源：如文件路径、数据库查询等
原始数据的读取方式：如图像解码为PIL对象、文本读取为字符串等
样本的预处理逻辑：如裁剪、翻转、归一化等，通常通过transform参数实现
返回值格式：如(image_tensor, label)

Dataset要求实现两个核心方法：

__len__()：返回数据集的样本总数
__getitem__(idx)：根据索引返回对应样本的数据和标签

class MNIST(Dataset):def __init__(self, root, train=True, transform=None):self.data, self.targets = fetch_mnist_data(root, train)self.transform = transformdef __len__(self): return len(self.data)def __getitem__(self, idx):img, target = self.data[idx], self.targets[idx]if self.transform is not None:img = self.transform(img)return img, target

我们可以通过索引直接访问数据集中的样本：

sample_idx = torch.randint(0, len(train_dataset), size=(1,)).item()
image, label = train_dataset[sample_idx]

三、DataLoader类：定义数据的加载方式和批量处理逻辑

DataLoader类负责将数据集切分为多个批次（batch），并支持多线程加载数据。它的主要功能包括：

批量大小（batch_size）：每个批次包含的样本数量，通常选择2的幂次方以提高GPU计算效率
是否打乱数据顺序（shuffle）：训练时通常设置为True，测试时设置为False
多进程加载（num_workers）：利用多个子进程同时加载数据，提高数据加载速度

train_loader = DataLoader(train_dataset,batch_size=64,shuffle=True
)test_loader = DataLoader(test_dataset,batch_size=1000
)

四、Dataset与DataLoader的职责分工

维度	Dataset	DataLoader
核心职责	定义"数据是什么"和"如何获取单个样本"	定义"如何批量加载数据"和"加载策略"
核心方法	`__getitem__()`、`__len__()`	无自定义方法，通过参数控制加载逻辑
预处理位置	在`__getitem__`中通过`transform`执行预处理	无预处理逻辑，依赖Dataset返回的预处理后数据
并行处理	无（仅单样本处理）	支持多进程加载（`num_workers>0`）
典型参数	`root`（数据路径）、`transform`（预处理）	`batch_size`、`shuffle`、`num_workers`