当前位置：首页 > ops >正文

【动手学深度学习】3.4. softmax回归

ops 2025/6/17 21:03:39

- 3.4. softmax回归
- - 1）分类问题
  - 2）网络架构
  - 3）全连接层的参数开销
  - 4）softmax运算
  - 5）小批量样本的矢量化
  - 6）损失函数
  - - （1）对数似然
    - （2）softmax及其导数
    - （3）交叉熵损失
  - 7）信息论基础
  - - （1）熵
    - （2）信息量
    - （3）交叉熵
  - 8）模型预测和评估

3.4. softmax回归

回归可以用于预测多少的问题。事实上，我们也对分类问题感兴趣：不是问“多少”，而是问“哪一个”。

通常，机器学习实践者用分类这个词来描述两个有微妙差别的问题：

1. 我们只对样本的“硬性”类别感兴趣，即属于哪个类别；
1. 我们希望得到“软性”类别，即得到属于每个类别的概率。

这两者的界限往往很模糊。其中的一个原因是：即使我们只关心硬类别，我们仍然使用软类别的模型。

1）分类问题

我们从一个图像分类问题开始，输入为 2 x 2 的灰度图像，每个图像对应四个像素，表示为四个特征 x_1, x_2, x_3, x_4。此外，假设每个图像属于类别“猫”“鸡”和“狗”中的一个。

标签表示，两种常见方式：

整数编码：用 $\in \{1, 2, 3\}$ 表示类别（1 代表狗，2 代表猫，3 代表鸡）。这种格式适用于有自然顺序的类别。
独热编码（one-hot encoding）：用一个向量表示标签，类别对应的分量为 1，其他为 0。例如，(1, 0, 0) 对应“猫”，(0, 1, 0) 对应“鸡”，(0, 0, 1) 对应“狗”。

独热编码不依赖类别间的自然顺序，适用于一般的分类问题。

2）网络架构

为估计所有可能类别的条件概率，我们需要一个有多个输出的模型，每个类别对应一个输出。为了解决线性模型的分类问题，我们需要和输出一样多的仿射函数（affine function）。

下例中，有4个特征和3个可能的输出类别，需要12个标量来表示权重（带下标的）， 3个标量来表示偏置（带下标的）。下面我们为每个输入计算三个未规范化的预测（logit）：o_1、o_2和o_3。

$\begin{split}\begin{aligned} o_1 &= x_1 w_{11} + x_2 w_{12} + x_3 w_{13} + x_4 w_{14} + b_1,\\ o_2 &= x_1 w_{21} + x_2 w_{22} + x_3 w_{23} + x_4 w_{24} + b_2,\\ o_3 &= x_1 w_{31} + x_2 w_{32} + x_3 w_{33} + x_4 w_{34} + b_3. \end{aligned}\end{split}$

用神经网络图来描述这个计算过程。

在这里插入图片描述

由于计算每个输出取决于所有输入，所以softmax回归的输出层也是全连接层。

为简洁表达模型，我们仍然使用线性代数符号。通过向量形式表达为 $\mathbf{o} = \mathbf{W} \mathbf{x} + \mathbf{b}$ ，这是一种更适合数学和编写代码的形式。

3）全连接层的参数开销

参数数量：输入维度 d，输出维度 q 时，参数量为 $\mathcal{O}(dq)$
优化策略：引入超参数 n，将计算复杂度降至 $\mathcal{O}(dq/n)$

超参数可以由我们灵活指定，以在实际应用中平衡参数节约和模型有效性。

4）softmax运算

不能将未规范化的预测o直接视作我们感兴趣的输出，因为将线性层的输出直接视为概率时存在一些问题：

一方面，我们没有限制这些输出数字的总和为1。
另一方面，根据输入的不同，它们可以为负值。

softmax 函数将未规范化的预测转换为非负且总和为 1 的概率分布，保持可导性：

首先对每个未规范化的预测求幂，这样可以确保输出非负。
为了确保最终输出的概率值总和为1，我们再让每个求幂后的结果除以它们的总和。
$\hat{\mathbf{y}} = \mathrm{softmax}(\mathbf{o})\quad \text{其中}\quad \hat{y}_j = \frac{\exp(o_j)}{\sum_k \exp(o_k)}$

因此，在预测过程中，我们仍然可以用下式来选择最有可能的类别。

$\operatorname*{argmax}_j \hat y_j = \operatorname*{argmax}_j o_j$

尽管softmax是一个非线性函数，但softmax回归的输出仍然由输入特征的仿射变换决定。因此，softmax回归是一个线性模型（linear model）。

5）小批量样本的矢量化

为了提高计算效率并充分利用 GPU，对小批量样本进行矢量化计算。

假设，读取一批样本X，其中特征维度（输入数量）为d，批量大小为n，输出有q个类别。

那么小批量样本的特征为 $\mathbf{X} \in \mathbb{R}^{n \times d}$ ，权重为 $\mathbf{W} \in \mathbb{R}^{d \times k}$ ，偏置为 $\mathbf{b} \in \mathbb{R}^{1 \times k}$ ，softmax 回归的矢量计算表达式为：

$\begin{split}\begin{aligned} \mathbf{O} &= \mathbf{X} \mathbf{W} + \mathbf{b}, \\ \hat{\mathbf{Y}} & = \mathrm{softmax}(\mathbf{O}). \end{aligned}\end{split}$

相对于一次处理一个样本，小批量样本的矢量化加快了X和W的矩阵-向量乘法。由于X中的每一行代表一个数据样本，那么softmax运算可以按行（rowwise）执行：对于的每一行，我们先对所有项进行幂运算，然后通过求和对它们进行标准化。 XW+b求和会使用广播机制，小批量的未规范化预测O和输出概率 $\hat{\mathbf{Y}}$ 都是形状为n x q的矩阵。

6）损失函数

接下来，我们需要一个损失函数来度量预测的效果。我们将使用最大似然估计，这与在线性回归中的方法相同。

（1）对数似然

softmax函数给出向量 $\hat{\mathbf{y}}$ 是“对给定任意输入 $\mathbf{x}$ 的每个类的条件概率”。例如， $\hat{y}_1=P(y=\text{猫} \mid \mathbf{x})$ 。设整个数据集{X, Y}具有 n 个样本，索引 i 的样本由特征向量 $\mathbf{x}^{(i)}$ 和独热标签向量 $\mathbf{y}^{(i)}$ 组成。我们可以将估计值与实际值进行比较：

由独立性，联合概率等于各概率的乘积：

$P(\mathbf{Y} \mid \mathbf{X}) = \prod_{i=1}^n P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)})$

根据最大似然估计，我们最大化P(Y | X)，相当于最小化负对数似然；
定义样本级损失 $l(\mathbf{y}^{(i)}, \hat{\mathbf{y}}^{(i)}) = -\log P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)})$ , 则：(对数特性：log(ab)=loga+logb)

$-\log P(\mathbf{Y} \mid \mathbf{X}) = \sum_{i=1}^n -\log P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) = \sum_{i=1}^n l(\mathbf{y}^{(i)}, \hat{\mathbf{y}}^{(i)})$

其中，对于任何标签 $\mathbf{y}$ 和模型预测 $\hat{\mathbf{y}}$ ，

基于独热编码的性质：由于 $\mathbf{y}$ 是独热编码，仅 $y_k=1$ ，其余 $y_j=0$ ：

$P(\mathbf{y} \mid \mathbf{x}) = \prod_{j=1}^q (\hat{y}_j)^{y_j} = (\hat{y}_1)^0 \times \cdots \times (\hat{y}_k)^1 \times \cdots \times (\hat{y}_q)^0 = \hat{y}_k$

则损失函数为：

$l(\mathbf{y}, \hat{\mathbf{y}}) = \log P(\mathbf{y} \mid \mathbf{x}) = -\log \left( \prod_{j=1}^q (\hat{y}_j)^{y_j} \right) = - \sum_{j=1}^q y_j \log \hat{y}_j$

上式的损失函数，通常被称为交叉熵损失（cross-entropy loss）。

（2）softmax及其导数

利用softmax的定义和前面公式，我们得到损失函数初步公式，经过以下步骤化简：

由对数性质 $\log \frac{A}{B} = \log A - \log B$ 得第一步；
由对数性质 $log \exp (o_j) = o_j$ 得第二步；
因独热标签向量 $\sum _ {j=1} ^q y_j = 1$ 得第三步；
$\begin{split}\begin{aligned} \\ l(\mathbf{y}, \hat{\mathbf{y}}) &= - \sum_{j=1}^q y_j \log \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} \\ &= - \sum _ {j=1} ^q y_j [\log \exp (o_j) - \log \sum _ {k=1} ^q \exp (o_k) ] \\ &= - \sum _ {j=1} ^q y_j o_j + \sum _ {j=1} ^q y_j \log \sum _ {k=1} ^q \exp (o_k) \\ &= \log \sum _ {k=1} ^q \exp (o_k) - \sum _ {j=1} ^q y_j o_j \end{aligned}\end{split}$

求损失函数对未规范化预测 $o_j$ 的偏导 $\partial_{o_j} l(y, \hat{y})$ 。

$\partial_{o_j} l(\mathbf{y}, \hat{\mathbf{y}}) = \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} - y_j = \mathrm{softmax}(\mathbf{o})_j - y_j$

化简步骤如下：

a.损失函数的第一部，可看作复合函数： $\log \sum_{k=1}^q \exp(o_k) = g(\ f(o)\ )$

外层函数的导数 ： $\log f$ 对 f 的导数是 $\frac{1}{f}$ 。
内层函数导数 ： $f(\mathbf{o}) = \sum_{k=1}^q \exp(o_k)$ 对 $o_j$ 的导数是 $exp(o_j)$ 。
根据链式法则，外层函数通过内层函数对 $o_j$ 的导数是两者的乘积：

$\frac{\partial}{\partial o_j} \log \sum_{k=1}^q \exp(o_k) = \frac{1}{\sum_{k=1}^q \exp(o_k)} \cdot \exp(o_j) = \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)}$

b.损失函数的第二部分，是 $-\sum_{j=1}^q y_j o_j$ 。

对 $o_j$ 求导时，只有项 $y_j o_j$ 会有贡献，其他项的导数为 0 ;
所以这部分对 $o_j$ 的导数为：

$\frac{\partial}{\partial o_j} \left( -\sum_{j=1}^q y_j o_j \right) = -y_j$

softmax 模型中损失函数对未规范化预测值的导数，等于模型分配的预测概率与独热标签表示的真实情况之间的差异。这一形式与回归问题中 “观测值与估计值的梯度差异” 具有一致性，其本质源于指数族分布模型的对数似然梯度性质 —— 该性质使得梯度可直接由预测值与真实值的偏差表示，从而简化了实际优化过程中的梯度计算。

（3）交叉熵损失

当处理多结果分类问题时，标签可表示为概率向量（而非二元独热向量），此时损失函数沿用 $l(\mathbf{y}, \hat{\mathbf{y}}) = - \sum_{j=1}^q y_j \log \hat{y}_j$ 定义为所有标签分布的预期损失，该损失称为交叉熵损失，是分类任务中最常用的损失函数之一。理解交叉熵损失需借助信息论基础（详见本书附录信息论相关内容）。