当前位置：首页 > news >正文

极大似然估计与机器学习

news 2025/7/7 12:33:09

复习概统的时候突然发现好像极大似然估计MLE与机器学习的数据驱动非常相似，都是采样样本然后估计模型参数。貌似，后知后觉的才意识到极大似然估计就是机器学习有效的数学保证

下面以拟合线性分布的最小二乘与分类问题为例推到以下如何从似然函数推导出MSE损失与交叉熵损失

一、线性回归的最小二乘法

1. 概率模型设定

假设数据由线性模型生成，且观测噪声服从正态分布：
$\mathbf{w}^T \mathbf{x} + \epsilon, \quad \epsilon \sim \mathcal{N}(0, \sigma^2)$
则给定输入 $\mathbf{x}$ 时， $y$ 的条件概率密度为：
$\mathbf{x}; \mathbf{w}) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y - \mathbf{w}^T \mathbf{x})^2}{2\sigma^2} \right)$
均值即为 $\mathbf{w}^T \mathbf{x})^2$

2. 似然函数与对数似然

对于独立同分布的 $N$ 个样本 $\{(\mathbf{x}_i, y_i)\}_{i=1}^N$ ，似然函数为：
$L(\mathbf{w}) = \prod_{i=1}^N p(y_i | \mathbf{x}_i; \mathbf{w})$
取对数得对数似然函数：
$\ln L(\mathbf{w}) = -\frac{N}{2} \ln(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^N (y_i - \mathbf{w}^T \mathbf{x}_i)^2$

3. 极大似然估计等价于最小二乘法

• 最大化对数似然等价于最小化负对数似然。

• 忽略与 $\mathbf{w}$ 无关的常数项，优化目标简化为：

$\min_{\mathbf{w}} \sum_{i=1}^N (y_i - \mathbf{w}^T \mathbf{x}_i)^2$
结论：最小二乘法的损失函数是高斯噪声假设下的极大似然估计结果。

二、分类问题的交叉熵损失

1. 概率模型设定（以二分类为例）

假设标签 $\in \{0,1\}$ 服从伯努利分布，其概率由逻辑函数（sigmoid）给出：
$\mathbf{x}; \mathbf{w}) = \hat{y}^y (1 - \hat{y})^{1-y}, \quad \hat{y} = \sigma(\mathbf{w}^T \mathbf{x}) = \frac{1}{1 + e^{-\mathbf{w}^T \mathbf{x}}}$
其中 $\hat{y}$ 是模型预测的 $y = 1$ 的概率。

2. 似然函数与对数似然

对于 $N$ 个独立样本，似然函数为：
$L(\mathbf{w}) = \prod_{i=1}^N \hat{y}_i^{y_i} (1 - \hat{y}_i)^{1-y_i}$
取对数得对数似然函数：
$\ln L(\mathbf{w}) = \sum_{i=1}^N \left[ y_i \ln \hat{y}_i + (1-y_i) \ln (1 - \hat{y}_i) \right]$

3. 极大似然估计等价于最小化交叉熵

• 最大化对数似然等价于最小化负对数似然：

$\min_{\mathbf{w}} -\sum_{i=1}^N \left[ y_i \ln \hat{y}_i + (1-y_i) \ln (1 - \hat{y}_i) \right]$
• 这正是二元交叉熵损失（Binary Cross-Entropy Loss）。

结论：交叉熵损失是伯努利分布假设下的极大似然估计结果。

三、通用框架与扩展

1. 核心思想

• 概率建模：根据问题类型选择合适的概率分布：

• 回归问题 → 高斯分布（连续输出）。

• 分类问题 → 伯努利/多项分布（离散输出）。

• 损失函数 = 负对数似然：

$\mathcal{L}(\mathbf{w}) = -\ln L(\mathbf{w})$

2. 其他常见例子

问题类型	分布假设	损失函数
多分类（K类）	多项分布（Softmax）	交叉熵损失
泊松回归	泊松分布	负对数泊松似然
鲁棒回归	拉普拉斯分布	绝对误差（L1损失）

3. 代码实现示例

(1) 最小二乘法（PyTorch）

import torch# 定义模型和损失
model = torch.nn.Linear(in_features=2, out_features=1)
criterion = torch.nn.MSELoss()  # 等价于高斯MLE# 前向计算
y_pred = model(X)
loss = criterion(y_pred, y)

(2) 交叉熵损失（逻辑回归）

import torch# 定义模型和损失
model = torch.nn.Linear(in_features=2, out_features=1)
criterion = torch.nn.BCEWithLogitsLoss()  # 等价于伯努利MLE# 前向计算
logits = model(X)
loss = criterion(logits, y)