当前位置：首页 > news >正文

多分类问题softmax传递函数+交叉熵损失

news 2025/7/4 1:13:50

在多分类问题中，Softmax 函数通常与交叉熵损失函数结合使用。

Softmax 函数

Softmax 函数是一种常用的激活函数，主要用于多分类问题中。它将一个实数向量转换为概率分布，使得每个元素的值在 0 到 1 之间，且所有元素的和为 1。

Softmax 函数的数学表达式：

$\text{softmax}(z_i) = \frac{{\rm e}^{z_i}}{\sum_{j=1}^{K} {\rm e}^{z_j}}$

其中， $z_i$ 是输入向量的第 $i$ 个元素， $K$ 是向量的长度。

Softmax 函数的实现

在 Python 中，可以使用 NumPy 库来实现 Softmax 函数。

import numpy as npdef softmax(x):exp_x = np.exp(x - np.max(x))  # 防止数值溢出return exp_x / np.sum(exp_x)# 示例输入
x = np.array([2.0, 1.0, 0.1])
print(softmax(x))

Softmax 函数的应用

Softmax 函数广泛应用于机器学习中的分类问题，特别是在神经网络的输出层。它可以将网络的原始输出转换为概率分布，从而方便地进行分类决策。

在使用 Softmax 函数时，需要注意数值稳定性问题。由于指数函数的增长非常快，直接计算 $e^{z_i}$ 可能导致数值溢出。为了避免这个问题，通常会从输入向量中减去其最大值，再进行指数计算。

def softmax_stable(x):exp_x = np.exp(x - np.max(x))return exp_x / np.sum(exp_x)

Softmax 函数的梯度

在反向传播算法中，需要计算 Softmax 函数的梯度。

Softmax 函数的梯度公式：

$\frac{\partial \text{softmax}(z_i)}{\partial z_j} = \text{softmax}(z_i) (\delta_{ij} - \text{softmax}(z_j))$

其中， $\delta_{ij}$ 是 Kronecker delta 函数，当 $i = j$ 时为 1，否则为 0。

交叉熵损失

交叉熵损失（Cross-Entropy Loss）是深度学习中常用的损失函数，尤其在分类任务中广泛应用。它衡量模型预测的概率分布与真实标签分布之间的差异。

对于有 $K$ 个类别的多分类问题，模型预测各类的概率为 $[p_1, p_2, \dots, p_K]$ （满足 $\sum_{i=1}^{K} p_i = 1$ ），则单个样本的交叉熵损失为：

$-\sum_{i=1}^{K} y_i \log(p_i)$

由于 $y_i$ 只有一个元素为 1，其余为 0，损失函数实际上只计算了正确类别的预测概率的对数。

对于多分类问题，交叉熵损失的公式为：
$-\frac{1}{N} \sum_{i=1}^{N} \sum_{k=1}^{K} y_{i,k} \log(p_{i,k})$
其中， $y_{i,k}$ 是样本 $i$ 在类别 $k$ 上的真实标签（0 或 1）， $p_{i,k}$ 是模型预测的样本 $i$ 属于类别 $k$ 的概率， $K$ 是类别总数。

假设真实标签为one hot编码向量 $y$ （只有一个元素为 1，其余为 0），交叉熵损失的公式简化为：
$-\frac{1}{N} \sum_{i=1}^{N}\log(p_{i,j})$
$j$ 为样本 $i$ 的真实类别。

交叉熵损失函数源于信息论中的交叉熵概念，用于度量两个概率分布之间的差异。在分类任务中：

真实标签分布：可以视为一个确定的分布（如独热编码）。
模型预测分布：是模型输出的概率分布。

交叉熵损失函数通过计算这两个分布的差异，指导模型优化，使预测分布尽可能接近真实分布。

交叉熵损失当预测概率与真实标签一致时，损失值为 0。当预测概率与真实标签差异较大时，损失值会迅速增大，从而促使模型快速调整参数。

代码示例：交叉熵损失

def cross_entropy(y_true, y_pred):return -np.sum(y_true * np.log(y_pred))# 示例标签和预测
y_true = np.array([1, 0, 0])
y_pred = softmax(np.array([2.0, 1.0, 0.1]))print("Cross Entropy Loss:", cross_entropy(y_true, y_pred))