当前位置: 首页 > news >正文

深度学习中的常见损失函数详解及PyTorch实现

损失函数(Loss Function)是深度学习中至关重要的组成部分,它衡量模型预测结果与真实标签之间的差异,是模型优化的目标。本文将详细介绍线性回归损失函数(MAE、MSE)、CrossEntropyLoss和BCELoss的原理、特点及PyTorch实现。

1. 线性回归损失函数

线性回归问题通常使用MAE(平均绝对误差)和MSE(均方误差)作为损失函数。

1.1 MAE损失(L1 Loss)

MAE(Mean Absolute Error)计算预测值与真实值之间绝对差值的平均值。

公式

 

 

特点

  • 对异常值不敏感

  • 梯度恒定,不利于梯度下降优化

PyTorch实现

import torch
import torch.nn as nn# 创建MAE损失函数实例
mae_loss = nn.L1Loss()# 示例数据
predictions = torch.tensor([1.5, 2.0, 3.2], dtype=torch.float32)
targets = torch.tensor([1.0, 2.5, 2.8], dtype=torch.float32)# 计算损失
loss = mae_loss(predictions, targets)
print(f"MAE Loss: {loss.item():.4f}")  # 输出: MAE Loss: 0.4667

1.2 MSE损失(L2 Loss)

MSE(Mean Squared Error)计算预测值与真实值之间平方差值的平均值。

公式

 

 

特点

  • 对异常值敏感

  • 梯度随误差增大而增大,有利于梯度下降

PyTorch实现

# 创建MSE损失函数实例
mse_loss = nn.MSELoss()# 使用之前的示例数据
loss = mse_loss(predictions, targets)
print(f"MSE Loss: {loss.item():.4f}")  # 输出: MSE Loss: 0.2967# 带reduction参数的MSE
mse_loss_sum = nn.MSELoss(reduction='sum')  # 求和而非平均
loss_sum = mse_loss_sum(predictions, targets)
print(f"MSE Sum Loss: {loss_sum.item():.4f}")  # 输出: MSE Sum Loss: 0.8900

参数说明

  • reduction:指定缩减方式,可选:

    • 'mean'(默认):返回损失的平均值

    • 'sum':返回损失的总和

    • 'none':返回每个样本的损失

2. CrossEntropyLoss(交叉熵损失)

交叉熵损失是分类任务中最常用的损失函数,尤其适用于多分类问题。

2.1 信息理论基础

2.1.1 信息量

对于一个事件x,其发生的概率为 P(x),信息量I(x)   

信息量是衡量一个事件发生的"惊讶程度",定义:

 

2.1.2 信息熵

信息熵是信息量的期望,衡量系统的不确定性:

 

2.1.3 KL散度

KL散度衡量两个概率分布的差异:

 

2.1.4 交叉熵

交叉熵是信息熵与KL散度的组合:

 

在分类任务中,P是真实分布(one-hot),Q是预测分布,因此最小化交叉熵等价于最小化KL散度。

2.2 PyTorch实现

# 创建交叉熵损失函数实例
ce_loss = nn.CrossEntropyLoss()# 示例数据
# 3个样本,5分类问题(注意输入不需要softmax,内部会自动处理)
logits = torch.tensor([[1.2, 0.4, -0.5, 2.1, 0.3],[0.8, 1.9, -1.2, 0.4, 1.1],[-0.1, 2.4, 0.7, 1.5, -0.5]], dtype=torch.float32)# 每个样本的真实类别索引(0-4)
targets = torch.tensor([3, 1, 4], dtype=torch.long)# 计算损失
loss = ce_loss(logits, targets)
print(f"CrossEntropy Loss: {loss.item():.4f}")  # 输出示例: CrossEntropy Loss: 0.8765

参数说明

  • weight(Tensor, 可选):给每个类别分配权重,用于处理类别不平衡问题

  • ignore_index(int, 可选):指定一个被忽略的类别索引,其不会贡献损失

  • reduction(str, 可选):与MSE相同,指定缩减方式

  • label_smoothing(float, 可选):标签平滑系数,0.0表示不使用

带权重的示例

# 假设5个类别的权重分别为[0.1, 0.2, 0.3, 0.2, 0.2]
weights = torch.tensor([0.1, 0.2, 0.3, 0.2, 0.2], dtype=torch.float32)ce_loss_weighted = nn.CrossEntropyLoss(weight=weights)
loss_weighted = ce_loss_weighted(logits, targets)
print(f"Weighted CrossEntropy Loss: {loss_weighted.item():.4f}")

3. BCELoss(二元交叉熵损失)

BCELoss(Binary Cross Entropy Loss)用于二分类问题,每个样本只能属于正类或负类。

公式

 

参数说明

  1. n

    • 表示当前批次中的样本数量

    • 用于计算所有样本损失的平均值

    • 在PyTorch中可以通过reduction='mean'(默认)或reduction='sum'来改变这个行为

  2. i

    • 样本索引,从1到n

    • 表示对批次中每个样本的计算

  3. yᵢ

    • 第i个样本的真实标签(ground truth)

    • 取值为0或1(负类或正类)

    • 在PyTorch中通常是一个浮点型Tensor,形状为[batch_size][batch_size, 1]

  4. ŷᵢ(y hat):

    • 模型对第i个样本的预测概率

    • 取值范围应该在(0,1)之间,通常通过sigmoid函数得到

    • 形状与yᵢ相同

  5. log

    • 自然对数(以e为底)

    • 在PyTorch实现中会处理数值稳定性问题(如添加微小值防止log(0))

 

PyTorch实现: 

# 创建BCE损失函数实例
bce_loss = nn.BCELoss()# 示例数据
# 4个样本的预测概率(经过sigmoid激活)
predictions = torch.tensor([0.8, 0.2, 0.6, 0.9], dtype=torch.float32)
# 真实标签(0或1)
targets = torch.tensor([1.0, 0.0, 1.0, 1.0], dtype=torch.float32)# 计算损失
loss = bce_loss(predictions, targets)
print(f"BCE Loss: {loss.item():.4f}")  # 输出示例: BCE Loss: 0.2070# 带权重的BCE
bce_loss_weighted = nn.BCELoss(weight=torch.tensor([1.0, 2.0, 1.0, 1.0]))
loss_weighted = bce_loss_weighted(predictions, targets)
print(f"Weighted BCE Loss: {loss_weighted.item():.4f}")

BCEWithLogitsLoss

通常在实际使用中,我们更常用BCEWithLogitsLoss,它结合了Sigmoid激活和BCELoss,数值计算更稳定。

bce_logits_loss = nn.BCEWithLogitsLoss()# 输入是未经过sigmoid的原始logits
logits = torch.tensor([1.5, -1.2, 0.4, 2.1], dtype=torch.float32)
targets = torch.tensor([1.0, 0.0, 1.0, 1.0], dtype=torch.float32)loss = bce_logits_loss(logits, targets)
print(f"BCEWithLogits Loss: {loss.item():.4f}")

参数说明

  • weight:与CrossEntropyLoss类似,用于样本加权重

  • pos_weight:正样本的权重,用于调整正负样本不平衡

  • reduction:同上

4. 损失函数总结与选择指南

损失函数适用场景特点
MAE (L1 Loss)回归问题对异常值不敏感,梯度恒定
MSE (L2 Loss)回归问题对异常值敏感,梯度随误差增大
CrossEntropyLoss多分类问题结合Softmax,直接处理类别概率
BCELoss二分类问题需配合Sigmoid使用,处理0-1概率
BCEWithLogitsLoss二分类问题结合Sigmoid,数值稳定性更好

选择建议

  1. 回归问题:

    • 数据中有异常值:优先考虑MAE

    • 数据质量较好:使用MSE

  2. 分类问题:

    • 二分类:使用BCEWithLogitsLoss

    • 多分类:使用CrossEntropyLoss

    • 类别不平衡:使用带权重的版本

  3. 特殊需求:

    • 需要更关注困难样本:考虑使用Focal Loss等变体

    • 多标签分类:可能需要组合多个BCELoss

5. 完整示例:MNIST分类中的损失函数应用

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader# 数据准备
transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.1307,), (0.3081,))
])train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)# 简单模型
class Net(nn.Module):def __init__(self):super(Net, self).__init__()self.fc1 = nn.Linear(28*28, 128)self.fc2 = nn.Linear(128, 10)def forward(self, x):x = x.view(-1, 28*28)x = torch.relu(self.fc1(x))x = self.fc2(x)return xmodel = Net()
optimizer = optim.Adam(model.parameters(), lr=0.001)# 使用CrossEntropyLoss
criterion = nn.CrossEntropyLoss()# 训练循环
for epoch in range(5):for batch_idx, (data, target) in enumerate(train_loader):optimizer.zero_grad()output = model(data)loss = criterion(output, target)loss.backward()optimizer.step()if batch_idx % 100 == 0:print(f'Epoch: {epoch} | Batch: {batch_idx} | Loss: {loss.item():.4f}')

通过本文的详细讲解,相信您已经对深度学习中常见的损失函数有了全面的了解。在实际应用中,根据具体问题和数据特点选择合适的损失函数,是构建高效模型的重要一步。 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

http://www.xdnf.cn/news/1099459.html

相关文章:

  • 初学者对编译和链接的学习笔记(含预编译详解)
  • c++-内部类
  • 网络安全初级
  • python正则表达式(小白五分钟从入门到精通)
  • 技术学习_检索增强生成(RAG)
  • 客户频繁问询项目进度,如何提高响应效率
  • STM32中DMA(直接存储器访问)详解
  • 基于 SpringBoot + Vue 的 IT 技术交流和分享平台的设计与实现
  • Git保姆级入门实战:从安装配置到常用命令与常见错误解决
  • 机器学习 YOLOv5手绘电路图识别 手绘电路图自动转换为仿真软件(如LT Spice)可用的原理图,避免人工重绘
  • upload-labs靶场通关详解:第21关 数组绕过
  • H5微应用四端调试工具—网页版:深入解析与使用指南
  • Java 枚举详解:从基础到实战,掌握类型安全与优雅设计
  • 青岛门卫事件后:高温晕厥救援技术突破
  • Transformer:自注意力驱动的神经网络革命引擎
  • PLC框架-1.3.2 报文750控制汇川伺服的转矩上下限
  • 位运算算法题
  • arm架构,arm内核,处理器之间的关系
  • STM32F103之ModBus\RS232\RS422\RS485
  • 记录今天学习Comfyui的感受
  • 【运维架构】云计算运维架构师与基础设施,技术路线,Linux证书(标准化/定制化/CNCF,公有云/混合云/私有云)
  • pharokka phold--快速噬菌体注释工具
  • 1.1.1数据类型与变量——AI教你学Django
  • 一文讲清楚React Hooks
  • Spring for Apache Pulsar->Reactive Support->Quick Tour
  • 【C++】——类和对象(上)
  • C语言<数据结构-链表>
  • Django专家成长路线知识点——AI教你学Django
  • 深度学习参数初始化方法详解及代码实现
  • WebSocket实战:实现实时聊天应用 - 双向通信技术详解