当前位置：首页 > backend >正文

【课堂笔记】指数族与广义线性模型（GLMs）

backend 2025/7/14 18:35:33

文章目录

指数族
- 定义
- 连接函数
- 例子
- - 伯努利分布
  - 高斯分布
  - 泊松分布
- 对数分配函数的性质
- - 梯度
  - 凸性
GLMs 广义线性模型
- 定义
- GLM 的负对数似然估计

指数族

指数族（Exponential Family）是一类概率分布的集合，在统计学和机器学习中非常重要，因其数学性质优美且广泛应用于广义线性模型（GLMs）等框架。

定义

指数族分布是指可以表示为以下形式的概率分布：
$p(y|\eta) = h(y)\text{exp}[\eta^\top\phi(y) - A(\eta)]$
其中：
$y$ ：随机变量
$\eta$ ：自然参数（natural parameter），控制分布的形状
$\phi(y)$ ：充分统计量（sufficient statistics），从数据中提取的关键信息。
$h (y)$ ：基测度（base measure），一个与 $\eta$ 无关的函数，通常起缩放作用。
$A(\eta)$ ：对数配分函数（log-partition function），确保概率分布归一化。

我们希望
$\int p(y|\eta)dy = 1 \\ \Rightarrow \int h(y)\text{exp}[\eta^\top\phi(y)-A(\eta)]dy=1 \\ \Rightarrow \int h(y)e^{\eta^\top\phi(y)}dy=e^{A(\eta)} \\ \Rightarrow A(\eta) = \text{ln }\left(\int h(y)e^{\eta^\top\phi(y)}dy\right)$

我们只考虑在自然参数空间
$\left\{\int_y h(y) \text{exp }[\eta^\top \phi(y)]dy < \infty \right\}$

中的参数，这个条件对后续推导中很重要。

连接函数

连接函数是把模型从线性推广到非线性的桥梁。连接函数 $g$ 是一个可逆的函数，将概率分布的均值 $\mu$ （通常是充分统计量 $\phi(y)$ 的期望，即 $\mu=\mathbb{E}[\phi(y)]$ ）映射到自然参数 $\eta$ 。数学上：
$\eta = g(\mu), \mu = g^{-1}(\eta)$

例子

伯努利分布

$p(y|\mu) = \mu^y(1-\mu)^{1-y} = \text{exp}\left(y\text{ln}\left(\frac{\mu}{1-\mu}\right) + \text{ln}(1-\mu) \right)$
于是对应的：
$\eta = g(\mu) = \text{ln}\left(\frac{\mu}{1-\mu}\right) \\ \phi(y) = y \\ h(y) = 1\\ A(\eta) = -\text{ln}(1-\mu) = \text{ln}(1+e^\eta)$
这里连接函数 $g$ 称为logit连接函数，常用于逻辑回归。

高斯分布

高斯分布的概率密度函数为： $p(y|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y-\mu)^2}{2\sigma^2} \right)$
写成指数族形式： $p(y|\eta) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{y^2}{2\sigma^2} \right) \exp\left( \eta y - \frac{\sigma^2 \eta^2}{2} \right)$
对应参数为： $\eta = g(\mu) = \frac{\mu}{\sigma^2} \\ \phi(y) = y \\ h(y) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{y^2}{2\sigma^2} \right) \\ A(\eta) = \frac{\sigma^2 \eta^2}{2}$

这里连接函数 $g$ 称为典型连接函数（canonical link），在固定方差的高斯分布中用于线性回归。

泊松分布

泊松分布的概率密度函数为： $p(y|\mu) = \frac{\mu^y e^{-\mu}}{y!}$
将其改写为指数族形式： $p(y|\eta) = \frac{1}{y!} \exp\left( \eta y - e^\eta \right)$
对应的指数族参数为：
$\eta = g(\mu) = \ln \mu \\ \phi(y) = y \\ h(y) = \frac{1}{y!}\\ A(\eta) = e^\eta$
这里的连接函数 $g$ 称为对数连接函数（log link），常用于泊松回归。

对数分配函数的性质

梯度

对数分配函数 $A(\eta)$ 的一阶梯度等于充分统计量 $\phi(y)$ 的期望。推导如下：
$A(\eta) = \text{ln }\left(\int h(y)e^{\eta^\top\phi(y)}dy\right) = \text{ln }Z(\eta) \\ \nabla A(\eta) = \nabla \text{ln }Z(\eta) = \frac{1}{Z(\eta)}\nabla Z(\eta)$
现在计算 $Z(\eta)$ 的梯度：
$Z(\eta) = \int h(y)e^{\eta^\top\phi(y)}dy \\ \nabla Z(\eta) =\nabla \int h(y)e^{\eta^\top\phi(y)}dy = \int h(y)\nabla e^{\eta^\top\phi(y)}dy$
这里能交换积分和导数的顺序，是基于自然参数空间 $M$ 满足Leibniz 法则的条件，即：
（1）积分域对参数的独立性：积分上界和下界（或积分域）不依赖于 $\eta$
（2）函数的连续可导性：被积函数及其对参数的导数在积分域内连续。
（3）积分收敛性：积分必须在 $\eta$ 的定义域内收敛，且导数交换后仍保持收敛。
继续计算：
$\nabla e^{\eta^\top\phi(y)} = \phi(y)e^{\eta^\top\phi(y)} \\ \nabla Z(\eta) = \int h(y)\phi(y)e^{\eta^\top\phi(y)}dy$
注意，概率密度函数为：
$p(y|\eta) = h(y)\text{exp}[\eta^\top\phi(y) - A(\eta)] = \frac{h(y)e^{\eta^\top\phi(y)}}{Z(\eta)}$
于是：
$\nabla Z(\eta) = \int h(y)\phi(y)e^{\eta^\top\phi(y)}dy = \int p(y|\eta)Z(\eta)\phi(y)dy \\ \nabla A(\eta) = \frac{1}{Z(\eta)}\nabla Z(\eta) = \int p(y|\eta)\phi(y)dy = \mathbb{E}[\phi(y)]$
当然我们也可以进一步推出 $A(\eta)$ 的二阶梯度为 $\text{Cov}[\phi(y)]$ 即充分统计量的协方差。

凸性

通过 Hölder 不等式可以证明 $A(\eta)$ 的凸性，这一性质表明 $A(\eta)$ 的二阶导数（Hessian 矩阵）是非负定矩阵，这在优化（如最大似然估计）中非常重要。凸性确保了参数估计过程（如梯度下降）有唯一的最优解。

Hölder 不等式指出：
$\|fg\|_1 \le \|f\|_p \|g\|_q \\ p, q \in [1, +\infty), \text{s.t. }\frac{1}{p} + \frac{1}{q} = 1 \\ \|f\|_p = \left( \int |f(y)|^p dy \right)^{1/p}$
要证明 $A(\eta)$ 的凸性，只要证：
$\theta = \lambda \eta_1 + (1-\lambda)\eta_2 \\ A(\theta) \le \lambda A(\eta_1) + (1-\lambda)A(\eta_2) \\ \Rightarrow Z(\theta) \le Z(\eta_1)^\lambda \cdot Z(\eta_2)^{1-\lambda}$
为了应用Hölder 不等式，取 $\frac{1}{\lambda}, q = \frac{1}{1-\lambda}$ ，则：
$Z(\theta) = \int h(y)\text{exp }[\theta^\top\phi(y)]dy = \int h(y)^{\lambda + 1 - \lambda}\text{exp }[\eta^\top_1\phi(y)]^{\lambda}\text{exp }[\eta^\top_2\phi(y)]^{1-\lambda}dy$
取
$[h(y)\text{exp }(\eta_1^\top \phi(y))]^{\lambda} \\ g(y) = [h(y)\text{exp }(\eta_2^\top \phi(y))]^{1-\lambda}$
则
$Z(\theta) = \int f(y)g(y)dy \le \left( \int f(y)^{\frac{1}{\lambda}} dy \right)^{\lambda}\left( \int g(y)^{\frac{1}{1-\lambda}} dy \right)^{1-\lambda} = Z(\eta_1)^\lambda \cdot Z(\eta_2)^{1-\lambda}$
两端同时取 $\text{ln}$ ，即得到了 $A(\eta)$ 是凸函数。

GLMs 广义线性模型

GLM 是一种统一的建模框架，扩展了线性回归和逻辑回归，能够处理不同类型的响应变量（如连续、二分类、计数数据等）。通过指数族分布和链接函数建立了 GLM 的理论基础。

定义

GLM 的核心思想是将线性模型与指数族分布结合起来，通过以下三个步骤定义：
（1）自然参数与输入的线性关系： $\eta = x^\top w$
（2）条件均值通过自然参数确定： $\mu = \mathbb{E}[y|x;w] = f(\eta)$
（3）响应变量服从指数族分布： $\sim \text{Expotential Family}(\mu)$

结合上述步骤，GLM 的条件概率模型为
$h(y)\text{exp}[\eta^\top\phi(y) - A(\eta)], \eta = x^\top w$
均值 $\mu = \mathbb{E}[\phi(y)] = \nabla A(\eta)$ ，通过连接函数与 $\eta$ 关联。

GLM 的负对数似然估计

为了估计参数 $w$ ，GLM使用最大似然估计（MLE），即最小化负对数似然。给定 $N$ 个独立样本 $\left\{(x_n, y_n)\right\}_{n=1}^N$ ，负对数似然为：
$\mathcal{L}(w) = -\frac{1}{N}\underset{n=1}{\overset{N}{\sum}}\text{ln }p(y_n|x_n;w)$
代入指数族形式：
$\mathcal{L}(w) = -\frac{1}{N}\underset{n=1}{\overset{N}{\sum}}[\text{ln }h(y_n) + \eta_n \phi(y_n) - A(\eta_n)], \eta_n = x_n^\top w$
计算梯度：
$\nabla \mathcal{L}(w) = -\frac{1}{N}\underset{n=1}{\overset{N}{\sum}}[\phi(y_n)\nabla\eta_n - \nabla A(\eta_n)] \\ \nabla \eta_n = \nabla(x_n^T w) = x_n \\ \nabla A(\eta_n) = \mathbb{E}[\phi(y)]\nabla \eta_n = \mu_nx_n = g^{-1}(\eta_n)x_n$
于是：
$\nabla \mathcal{L}(w) = \frac{1}{N}\underset{n=1}{\overset{N}{\sum}}x_n[g^{-1}(\eta_n) - \phi(y_n)] = \frac{1}{N}X^\top[g^{-1}(Xw) - \phi(y)]$