当前位置：首页 > backend >正文

深度学习------模型的保存和使用

backend 2025/9/5 18:20:21

在 Python 中，模型的保存与加载是连接模型训练与实际应用的桥梁。合理的保存方式不仅能复用已训练的模型，还能节省重复训练的时间成本。不同机器学习框架有各自的实现逻辑，下面结合具体场景详细讲解：

一、Scikit-learn 模型：轻量高效的序列化方案

Scikit-learn 作为传统机器学习的主流库，模型通常体积较小，推荐使用joblib或pickle进行序列化（对象转换为字节流）。两者的核心区别在于joblib对大型 NumPy 数组的处理更高效，因此更适合 Scikit-learn 的模型保存。

1. 保存模型的底层逻辑

模型保存本质是将训练好的参数（如决策树的分裂阈值、随机森林的树结构）转换为可存储的格式。以随机森林为例，训练过程中会生成多棵决策树，joblib.dump()会将这些树的结构、特征重要性等信息完整保存。

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import joblib# 训练模型
data = load_iris()
X, y = data.data, data.target
model = RandomForestClassifier()
model.fit(X, y)  # 模型内部参数已通过训练更新# 保存模型到本地文件
joblib.dump(model, 'random_forest_model.pkl')  # 文件格式为.pkl

2. 加载与使用的关键细节

加载模型时，joblib.load()会将文件中的字节流还原为完整的模型对象，此时模型的参数与训练结束时完全一致，可直接用于预测。无需重新训练或定义模型结构，这是 Scikit-learn 序列化的便捷之处。

import joblib# 加载模型（还原为完整的模型对象）
loaded_model = joblib.load('random_forest_model.pkl')# 直接使用加载的模型进行预测
new_data = [[5.1, 3.5, 1.4, 0.2], [6.2, 3.4, 5.4, 2.3]]  # 新样本特征
predictions = loaded_model.predict(new_data)  # 调用预测方法
print("预测结果:", predictions)  # 输出类别标签

二、TensorFlow/Keras 模型：灵活的保存策略

Keras 作为高层神经网络 API，提供了多种保存方式，可根据需求选择保存 “完整模型”“仅权重” 或 “仅结构”，适应迁移学习、模型部署等不同场景。

1. 保存完整模型（推荐用于部署）

完整模型包含三部分核心信息：

模型的网络结构（各层的类型、参数）
训练好的权重参数
优化器状态（便于继续训练）

保存为.h5格式（基于 HDF5 标准），这是一种高效的二进制格式，支持压缩和分块存储，适合大型模型。

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
import numpy as np# 构建并训练模型
model = Sequential([Dense(64, activation='relu', input_shape=(10,)),  # 输入层Dense(1, activation='sigmoid')  # 输出层（二分类）
])
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])# 示例训练数据
X = np.random.random((1000, 10))  # 1000个样本，每个10个特征
y = np.random.randint(0, 2, size=(1000, 1))  # 二分类标签
model.fit(X, y, epochs=5)  # 训练5轮# 保存完整模型
model.save('keras_model.h5')  # 包含结构、权重和优化器

2. 仅保存权重（用于迁移学习）

当需要复用模型权重（如冻结部分层进行迁移学习）时，可单独保存权重。此时需注意：加载权重前必须先定义与原模型完全一致的网络结构，否则会因层不匹配导致错误。

# 保存权重（仅参数，不包含结构）
model.save_weights('model_weights.h5')# 加载权重的前提：定义相同结构的模型
new_model = Sequential([Dense(64, activation='relu', input_shape=(10,)),  # 与原模型结构一致Dense(1, activation='sigmoid')
])
new_model.load_weights('model_weights.h5')  # 加载权重到新模型
new_model.compile(optimizer='adam', loss='binary_crossentropy')  # 需重新编译

3. 加载完整模型的使用场景

加载完整模型后，可直接用于预测，无需重新定义结构或编译，非常适合生产环境中的快速部署。

from tensorflow.keras.models import load_model# 加载完整模型（一键还原所有信息）
loaded_model = load_model('keras_model.h5')# 预测新数据
new_data = np.random.random((5, 10))  # 5个待预测样本
predictions = loaded_model.predict(new_data)  # 输出预测概率
print("预测概率:", predictions)

三、PyTorch 模型：基于状态字典的灵活管理

PyTorch 采用 “状态字典（state_dict）” 机制管理模型参数，这是一种有序字典（OrderedDict），存储了各层的权重和偏置。这种设计的优势是分离了模型结构与参数，便于灵活调整和迁移。

1. 保存状态字典（推荐方式）

状态字典仅包含模型的参数，不包含结构，因此文件体积更小，且兼容性更强（不受模型类定义变化的影响）。保存时通常还会同步保存优化器的状态字典，以便后续继续训练。

import torch
import torch.nn as nn
import torch.optim as optim# 定义模型结构（必须与训练时一致）
class SimpleNN(nn.Module):def __init__(self):super(SimpleNN, self).__init__()self.fc = nn.Linear(10, 1)  # 全连接层：10输入→1输出def forward(self, x):return torch.sigmoid(self.fc(x))  # 激活函数输出概率# 初始化组件
model = SimpleNN()
criterion = nn.BCELoss()  # 二分类损失
optimizer = optim.Adam(model.parameters())  # 优化器# 示例训练过程
X = torch.randn(1000, 10)  # 张量形式的输入
y = torch.randint(0, 2, (1000, 1)).float()  # 标签张量
for epoch in range(5):outputs = model(X)loss = criterion(outputs, y)optimizer.zero_grad()  # 清零梯度loss.backward()  # 反向传播optimizer.step()  # 更新参数# 保存模型状态字典（核心参数）
torch.save(model.state_dict(), 'pytorch_model_state_dict.pth')
# 保存优化器状态（如需继续训练）
torch.save(optimizer.state_dict(), 'optimizer_state_dict.pth')

2. 加载状态字典的关键步骤

加载时需严格遵循 “先定义结构，再加载参数” 的流程：

必须重新定义与训练时完全一致的模型类（包括层的类型、输入输出维度）
调用model.eval()将模型切换为评估模式（关闭 dropout、固定批量归一化参数）
预测时使用torch.no_grad()关闭梯度计算，提高效率并节省内存

# 1. 重新定义模型结构（与训练时完全一致）
model = SimpleNN()# 2. 加载模型权重到结构中
model.load_state_dict(torch.load('pytorch_model_state_dict.pth'))# 3. 切换为评估模式（关键步骤！）
model.eval()# 4. （可选）加载优化器状态（继续训练时使用）
optimizer = optim.Adam(model.parameters())
optimizer.load_state_dict(torch.load('optimizer_state_dict.pth'))# 5. 预测新数据
with torch.no_grad():  # 关闭梯度计算new_data = torch.randn(5, 10)  # 张量输入predictions = model(new_data)  # 输出概率print("预测概率:", predictions.numpy())  # 转换为NumPy数组

3. 保存完整模型的局限性

PyTorch 也支持直接保存整个模型对象（torch.save(model, 'full_model.pth')），但不推荐。因为这种方式会将模型类的定义一并序列化，若后续修改了模型类的代码（如重命名类名），加载时会报错，兼容性较差。

四、跨框架与生产环境的进阶考量

格式兼容性：
- 不同框架的模型格式不通用（如.pkl不能直接被 PyTorch 加载），需通过 ONNX（开放神经网络交换格式）进行转换，实现跨框架复用。
- 示例：将 PyTorch 模型转换为 ONNX 格式，再加载到 TensorFlow 中使用。
安全性问题：
- pickle/joblib格式存在安全风险，加载未知来源的.pkl文件可能执行恶意代码，生产环境中建议使用更安全的格式（如 TensorFlow 的 SavedModel、ONNX）。
大型模型处理：
- 对于 GB 级模型，可采用量化（降低参数精度）、蒸馏（压缩模型体积）等技术减小文件大小。
- 云部署时，可将模型存储在对象存储服务（如 S3、OSS）中，通过 API 动态加载。
部署效率优化：
- 轻量部署：使用 ONNX Runtime、TensorRT 等推理引擎加速预测。
- 服务化封装：通过 FastAPI 将模型包装为 HTTP 接口，支持高并发请求。