深度学习——神经网络(PyTorch 实现 MNIST 手写数字识别案例)
原理:
深度学习——详细教学:神经元、神经网络、感知机、激活函数、损失函数、优化算法(梯度下降)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/150618265?spm=1011.2415.3001.5331
案例教学:PyTorch 实现 MNIST 手写数字识别
本文将通过一个完整的案例,演示如何使用 PyTorch 搭建一个神经网络模型,对经典的 MNIST 手写数字数据集 进行训练与测试。我们会详细拆解代码中涉及到的每个步骤与概念,帮助你理解 PyTorch 的核心流程。
数据 → 加载器/形状 → 设备 → 网络结构(含参数计数)→ 前向/损失/优化器 → 训练流程细节 → 测试流程细节 → 常见坑与改进建议。
完整代码:
# import torch # print(torch.__version__)'''MNIST包含70000张手写数字图像:60000用于训练,10000用于测试图像是灰度的,28×28像素的,并且居中的,以减少预处理和加快运行 ''' import torch from torch import nn #导入神经网络模块 from torch.utils.data import DataLoader #数据包管理工具,打包数据 from torchvision import datasets #封装了很多与图像相关的模型,数据集 from torchvision.transforms import ToTensor #数据转换,张量,将其他类型的数据转换为tensor张量,numpy array'''下载训练数据集(包含训练图片+标签)''' training_data = datasets.MNIST( #跳转到函数的内部源代码,pycharm按下ctrl + 鼠标点击root="data", #表示下载的手写数字 到哪个路径。60000train=True, #读取下载后的数据中的训练集download=True, #如果你之前已经下载过了,就不用下载transform=ToTensor(), #张量,图片是不能直接传入神经网络模型) #对于pytorch库能够识别的数据一般是tensor张量 '''下载测试数据集(包含训练图片+标签)''' test_data = datasets.MNIST( #跳转到函数的内部源代码,pycharm按下ctrl + 鼠标点击root="data", #表示下载的手写数字 到哪个路径。60000train=False, #读取下载后的数据中的训练集download=True, #如果你之前已经下载过了,就不用下载transform=ToTensor(), #Tensor是在深度学习中提出并广泛应用的数据类型) #Numpy数组只能在CPU上运行。Tensor可以在GPU上运行。这在深度学习应用中可以显著提高计算速度。 print(len(training_data))# '''展示手写数字图片,把训练集中的59000张图片展示''' # from matplotlib import pyplot as plt # figure = plt.figure() # for i in range(9): # img,label = training_data[i+59000] #提取第59000张图片 # # figure.add_subplot(3,3,i+1) #图像窗口中创建多个小窗口,小窗口用于显示图片 # plt.title(label) # plt.axis("off") #plt.show(I) 显示矢量 # plt.imshow(img.squeeze(),cmap="gray") #plt.imshow()将Numpy数组data中的数据显示为图像,并在图形窗口中显示 # a = img.squeeze() #img.squeeze()从张量img中去掉维度为1的,如果该维度的大小不为1,则张量不会改变 # plt.show()'''创建数据DataLoader(数据加载器)''' # batch_size:将数据集分为多份,每一份为batch_size个数据 # 优点:可以减少内存的使用,提高训练速度 train_dataloader = DataLoader(training_data,batch_size=64) test_dataloader = DataLoader(test_data,batch_size=64) for X,y in test_dataloader:#X是表示打包好的每一个数据包print(f"Shape of X[N,C,H,W]:{X.shape}")#print(f"Shape of y: f{y.shape} {y.dtype}")break'''判断当前设备是否支持GPU,其中mps是苹果m系列芯片的GPU''' device = "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu" print(f"Using {device} device") #字符串的格式化,CUDA驱动软件的功能:pytorch能够去执行cuda的命令 # 神经网络的模型也需要传入到GPU,1个batch_size的数据集也需要传入到GPU,才可以进行训练''' 定义神经网络 类的继承这种方式''' class NeuralNetwork(nn.Module): #通过调用类的形式来使用神经网络,神经网络的模型,nn.mdouledef __init__(self): #python基础关于类,self类自己本身super().__init__() #继承的父类初始化self.flatten = nn.Flatten() #展开,创建一个展开对象flattenself.hidden1 = nn.Linear(28*28,128) #第1个参数:有多少个神经元传入进来,第2个参数:有多少个数据传出去self.hidden2 = nn.Linear(128,256) #第1个参数:有多少个神经元传入进来,第2个参数:有多少个数据传出去self.out = nn.Linear(256,10) #输出必须和标签的类别相同,输入必须是上一层的神经元个数def forward(self,x): #前向传播,你得告诉它 数据的流向 是神经网络层连接起来,函数名称不能改x = self.flatten(x) #图像进行展开x = self.hidden1(x)x = torch.relu(x) #激活函数,torch使用的relu函数x = self.hidden2(x)x = torch.relu(x)x = self.out(x)return x model = NeuralNetwork().to(device) #把刚刚创建的模型传入到GPU print(model)def train(dataloader,model,loss_fn,optimizer):model.train() #告诉模型,我要开始训练,模型中w进行随机化操作,已经更新w,在训练过程中,w会被修改的 # pytorch提供2种方式来切换训练和测试的模式,分别是:model.train() 和 mdoel.eval() # 一般用法是:在训练开始之前写上model.train(),在测试时写上model.eval()batch_size_num = 1for X,y in dataloader: #其中batch为每一个数据的编号X,y = X.to(device),y.to(device) #把训练数据集和标签传入cpu或GPUpred = model.forward(X) # .forward可以被省略,父类种已经对此功能进行了设置loss = loss_fn(pred,y) # 通过交叉熵损失函数计算损失值loss# Backpropagation 进来一个batch的数据,计算一次梯度,更新一次网络optimizer.zero_grad() # 梯度值清零loss.backward() # 反向传播计算得到每个参数的梯度值woptimizer.step() # 根据梯度更新网络w参数loss_value = loss.item() # 从tensor数据种提取数据出来,tensor获取损失值if batch_size_num %100 ==0:print(f"loss: {loss_value:>7f} [number:{batch_size_num}]")batch_size_num += 1def Test(dataloader,model,loss_fn):size = len(dataloader.dataset) #10000num_batches = len(dataloader) # 打包的数量model.eval() #测试,w就不能再更新test_loss,correct =0,0with torch.no_grad(): #一个上下文管理器,关闭梯度计算。当你确认不会调用Tensor.backward()的时候for X,y in dataloader:X,y = X.to(device),y.to(device)pred = model.forward(X)test_loss += loss_fn(pred,y).item() #test_loss是会自动累加每一个批次的损失值correct += (pred.argmax(1) == y).type(torch.float).sum().item()a = (pred.argmax(1) == y) #dim=1表示每一行中的最大值对应的索引号,dim=0表示每一列中的最大值对应的索引号b = (pred.argmax(1) == y).type(torch.float)test_loss /= num_batches #能来衡量模型测试的好坏correct /= size #平均的正确率print(f"Test result: \n Accuracy:{(100*correct)}%, Avg loss:{test_loss}")loss_fn = nn.CrossEntropyLoss() #创建交叉熵损失函数对象,因为手写字识别一共有十种数字,输出会有10个结果optimizer = torch.optim.Adam(model.parameters(),lr=0.005) #0.01创建一个优化器,SGD为随机梯度下降算法 # # params:要训练的参数,一般我们传入的都是model.parameters() # # lr:learning_rate学习率,也就是步长# # loss表示模型训练后的输出结果与样本标签的差距。如果差距越小,就表示模型训练越好,越逼近真实的模型 # 只跑一轮(可尝试) # train(train_dataloader,model,loss_fn,optimizer) #训练1次完整的数据。多轮训练 # Test(test_dataloader,model,loss_fn)epochs = 10 for t in range(epochs):print(f"epoch {t+1}\n---------------")train(train_dataloader,model,loss_fn,optimizer) print("Done!") Test(test_dataloader,model,loss_fn)
一、数据与 transform
training_data = datasets.MNIST(..., transform=ToTensor())
test_data = datasets.MNIST(..., transform=ToTensor())
-
MNIST:总共 70,000 张 28×28 灰度图(60000 训练 + 10000 测试)。
-
ToTensor()
的作用:-
把 PIL Image / numpy array →
torch.Tensor
。 -
把像素值从
[0,255]
变为浮点张量并归一化到[0.0,1.0]
(内部做了image/255.
)。 -
还会把通道维度放到最前面(灰度图从
(H,W)
→(C,H,W)
,对于单通道C=1
)。
-
-
为什么需要
Tensor
:PyTorch 的模型、Loss、优化器等都以Tensor
为输入,且Tensor
可以.to(device)
(移动到 GPU)。
二、DataLoader
与张量形状
train_dataloader = DataLoader(training_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)
for X,y in test_dataloader:print(f"Shape of X[N,C,H,W]:{X.shape}")print(f"Shape of y: f{y.shape} {y.dtype}")break
-
batch_size=64
意味着每个批次X
的形状通常是[64, 1, 28, 28]
:-
N
(batch size)=64,C
=1(灰度),H
=28,W
=28。
-
-
y
的形状通常是[64]
(每个样本一个整数标签),数据类型torch.int64
(也就是 long),这是nn.CrossEntropyLoss
所期望的标签类型。 -
注意小细节:你写的
print
f-string 中有个字母f
被留在字符串里f"Shape of y: f{y.shape} {y.dtype}"
,输出会包含那个字母f
(不会影响功能,但显示上会多一个字符)。 -
批次数量:
-
训练集 60000 / 64 = 937.5 →
len(train_dataloader)
等于 938 批(937 个满批,最后一批为 32 个样本)。 -
测试集 10000 / 64 = 156.25 →
len(test_dataloader)
等于 157 批(最后一批为 16 个样本)。 -
默认
DataLoader
的drop_last=False
,所以会保留最后一个不满的批次。
-
三、设备选择(CPU / CUDA / MPS)
device = "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"
print(f"Using {device} device")
-
逻辑按优先级:
cuda
→mps
(苹果 M 系芯片)→cpu
。 -
torch.cuda.is_available()
检查 CUDA 驱动与 GPU 是否可用。 -
torch.backends.mps.is_available()
检查 macOS Metal Performance Shaders 是否可用。 -
要点:
-
模型(
model.to(device)
) 与每个 batch 的X,y = X.to(device), y.to(device)
都必须迁移到同一device
,否则会报错(device mismatch)。 -
MPS 在特性和稳定性上与 CUDA 有差别(某些操作可能尚不支持或有性能差异),在 macOS 上测试要注意。
-
四、模型结构详解(逐层、参数计数)
class NeuralNetwork(nn.Module):def __init__(self):super().__init__()self.flatten = nn.Flatten()self.hidden1 = nn.Linear(28*28,128)self.hidden2 = nn.Linear(128,256)self.out = nn.Linear(256,10)def forward(self,x):x = self.flatten(x)x = self.hidden1(x)x = torch.relu(x)x = self.hidden2(x)x = torch.relu(x)x = self.out(x)return x
model = NeuralNetwork().to(device)
-
Flatten()
:把输入(N,1,28,28)
→(N, 784)
(784 = 28×28)。 -
hidden1 = Linear(784,128)
:-
权重形状
(128, 784)
,权重数量 =784 * 128 = 100,352
。 -
bias 数量 =
128
。 -
hidden1 总参数 = 100,352 + 128 = 100,480
-
-
hidden2 = Linear(128,256)
:-
权重
128 * 256 = 32,768
,bias =256
。 -
hidden2 总参数 = 32,768 + 256 = 33,024
-
-
out = Linear(256,10)
:-
权重
256 * 10 = 2,560
,bias =10
。 -
out 总参数 = 2,560 + 10 = 2,570
-
-
模型总参数 =
100,480 + 33,024 + 2,570 = 136,074
参数(approx)。 -
激活函数
torch.relu
:逐元素做max(0,x)
,能够引入非线性。 -
注意:模型返回的是 原始 logits(没有 softmax) —— 这是正确的,因为
nn.CrossEntropyLoss
内部会把 logits 送入log_softmax
+NLLLoss
,你不应该在网络末尾手动加 softmax(两次会错)。
五、损失函数与优化器(为什么这么用)
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.005)
-
CrossEntropyLoss
:-
输入:
pred
(形状[N, 10]
的 raw logits),标签y
(形状[N]
,整数类索引)。 -
内部实现包括 softmax 与负对数似然(
log_softmax + NLLLoss
)。 -
默认
reduction='mean'
,返回单个标量(该批次的平均损失)。
-
-
Adam
优化器:-
自适应一阶优化器,通常比简单 SGD 收敛更快,适合大多数场景。
-
lr=0.005
是学习率(步长);你可以根据训练曲线调整(过大会发散,过小收敛慢)。
-
-
model.parameters()
:把模型里可训练的参数传给优化器。
六、训练函数 train(...)
的逐步解析
def train(dataloader, model, loss_fn, optimizer):model.train()batch_size_num = 1for X,y in dataloader:X,y = X.to(device), y.to(device)pred = model.forward(X)loss = loss_fn(pred, y)optimizer.zero_grad()loss.backward()optimizer.step()loss_value = loss.item()if batch_size_num % 100 == 0:print(f"loss: {loss_value:>7f} [number:{batch_size_num}]")batch_size_num += 1
-
model.train()
:把模型切换到训练模式(启用 dropout、batchnorm 的训练行为)。 -
每个批次流程:
-
X,y = X.to(device), y.to(device)
:迁移张量到 GPU(或 MPS / CPU)。 -
pred = model.forward(X)
:前向得到 logits。建议通常写pred = model(X)
(等价,但会触发钩子/注册的行为更标准),但model.forward(X)
也能工作。 -
loss = loss_fn(pred, y)
:计算当前批次平均损失。 -
optimizer.zero_grad()
:把之前累积的梯度清零(PyTorch 默认梯度是累加的)。 -
loss.backward()
:反向传播,计算每个参数的梯度。 -
optimizer.step()
:根据梯度更新参数。 -
loss.item()
:把标量Tensor
转为 Python float,便于打印/记录。
-
-
batch_size_num
用来计数并每 100 批打印一次损失(注意从 1 开始)。 -
为什么要 zero_grad? 如果不清零,梯度会在多个
.backward()
调用中累加,从而导致错误的更新(除非你刻意想累加梯度用于大 batch 模拟)。
七、测试/验证函数 Test(...)
逐步解析
def Test(dataloader, model, loss_fn):size = len(dataloader.dataset)num_batches = len(dataloader)model.eval()test_loss, correct = 0, 0with torch.no_grad():for X,y in dataloader:X,y = X.to(device), y.to(device)pred = model.forward(X)test_loss += loss_fn(pred,y).item()correct += (pred.argmax(1) == y).type(torch.float).sum().item()test_loss /= num_batchescorrect /= sizeprint(f"Test result: \n Accuracy:{(100*correct)}%, Avg loss:{test_loss}")
-
size = len(dataloader.dataset)
→ 测试样本总数(例:10000)。 -
num_batches = len(dataloader)
→ 批次数(例:157)。 -
model.eval()
:把模型切换到评估模式(关闭 dropout、batchnorm 的训练状态)。 -
with torch.no_grad()
:关闭梯度计算,节约显存和加速推理,因为测试不需要梯度。 -
pred.argmax(1)
:在类别维度(dim=1)取最大 logit 对应的类索引 → 预测类别。 -
(pred.argmax(1) == y)
→ 布尔张量(True/False),.type(torch.float)
转为 1.0/0.0,.sum().item()
得到该批次正确预测数(Python number)。 -
最后:
-
test_loss /= num_batches
:得到 每批平均损失的平均(注意:这是对每个批次均等加权的平均;若要精确按样本加权平均,需要用loss * batch_size
累加再除以size
)。 -
correct /= size
:得到正确率(小数),打印时乘以 100 得到百分比。
-
-
小提醒:代码中也顺手把
a
、b
(中间变量)留了出来,可能是调试/示例用。
八、训练循环与输出
epochs = 10
for t in range(epochs):print(f"epoch {t+1}\n---------------")train(train_dataloader, model, loss_fn, optimizer)
print("Done!")
Test(test_dataloader, model, loss_fn)
-
外层循环按
epochs
控制完整遍历训练集的次数(每次都会走len(train_dataloader)
个 batch)。 -
每个 epoch 会打印若干
loss
(每 100 批一次),训练结束后打印Done!
,并调用Test
做最终评估。
九、常见坑、注意事项与改进建议(不改动你的代码,只是建议)
-
是否要 shuffle 训练集?
-
目前
DataLoader(training_data, batch_size=64)
未设置shuffle=True
。训练时通常需要shuffle=True
,避免每个 epoch 数据顺序相同导致模型收敛不佳。代码不改动的前提下我只提醒你注意这一点。
-
-
model(X)
vsmodel.forward(X)
:一般用model(X)
,因为它会处理钩子、预处理等;model.forward(X)
直接调用前向实现,但大多数场景两者等效。 -
损失平均方式:
Test
中的test_loss
是对“每个批次平均损失”的平均;如果想按样本精确平均,应把loss_fn(pred,y).item() * X.size(0)
累加,然后最后除以size
。 -
随机性与可复现:要想可复现,设置随机种子(
torch.manual_seed(...)
),并考虑 CUDA 的确定性配置。 -
保存模型:训练好后可
torch.save(model.state_dict(), "mnist.pth")
以便下次加载(model.load_state_dict(...)
)。 -
学习率/优化器:
lr=0.005
是可行的初值,但可能需要调整;也可加入学习率调度器torch.optim.lr_scheduler
。 -
批大小、内存:在 GPU 上如果内存不足,可减小
batch_size
;在 CPU 上训练会慢很多。 -
MPS 注意:如果使用苹果 M 系统,
mps
支持不完全等同cuda
,出现奇怪错误时可尝试切回cpu
。 -
性能监控:建议在训练过程中记录
loss
、accuracy
曲线以便观察训练/过拟合情况。
十、运行时你会看到的大致输出示例
-
print(len(training_data))
→60000
-
DataLoader 第一次打印:
Shape of X[N,C,H,W]: torch.Size([64, 1, 28, 28])
Shape of y: ftorch.Size([64]) torch.int64
(这里会带f
,如上所述) -
print(f"Using {device} device")
→Using cuda device
(或mps
/cpu
) -
print(model)
→ 将打印网络结构(每层的Linear(in_features, out_features)
)。 -
训练过程中每 100 批会打印一次 loss,比如:
loss: 0.123456 [number:100]
-
最后测试:
Test result:
Accuracy:98.25%, Avg loss:0.0456
(数值示例,实际结果依赖训练情况)