广义线性模型三剑客:线性回归、逻辑回归与Softmax分类的统一视角
文章目录
- 广义线性模型三剑客:线性回归、逻辑回归与Softmax分类的统一视角
- 引言:机器学习中的"家族相似性"
- 广义线性模型(GLMs)基础
- 三位家族成员的统一视角
- 1. 线性回归(Linear Regression)
- 2. 逻辑回归(Logistic Regression)
- 3. Softmax分类(Softmax Classification)
- 三者的比较与联系
- 实践中的注意事项
- 从GLM到深度学习
- 结语:统一之美
广义线性模型三剑客:线性回归、逻辑回归与Softmax分类的统一视角
引言:机器学习中的"家族相似性"
-
在机器学习的世界里,乍看之下各不相同的算法实际上往往存在着深刻的联系。许多机器学习模型其实属于同一个"模型家族"。今天,我们要探讨的就是这样一个强大的家族——广义线性模型(GLMs)家族中的三位重要成员:线性回归(Linear Regression)、逻辑回归(Logistic Regression)和Softmax分类(Softmax Classification)。
-
对于初学者来说,理解这些模型之间的内在联系不仅能加深对每个模型的理解,还能帮助我们在面对实际问题时做出更明智的模型选择。
-
希望这篇博客能帮助你建立起对这些基本模型的统一认识!在机器学习的旅程中,这种"见树木亦见森林"的视角将为你后续的学习打下坚实基础。
广义线性模型(GLMs)基础
- 广义线性模型是传统线性回归的扩展,它通过三个主要组成部分将线性预测与响应变量联系起来:
- 随机成分:响应变量 Y Y Y服从指数族分布
- 系统成分:通过线性预测器 η = X β η = Xβ η=Xβ
- 链接函数:连接随机成分和系统成分的 g ( μ ) = η g(μ) = η g(μ)=η
- 指数分布族是一类形式统一的概率分布,可以表示为:
p ( y ; η ) = b ( y ) e ( η T T ( y ) − a ( η ) ) p(y;η) = b(y)e^{(ηᵀT(y) - a(η))} p(y;η)=b(y)e(ηTT(y)−a(η))
其中 η η η是自然参数, T ( y ) T(y) T(y)是充分统计量, a ( η ) a(η) a(η)是对数配分函数, b ( y ) b(y) b(y)是基准测度。
三位家族成员的统一视角
1. 线性回归(Linear Regression)
模型假设:
- 响应变量 Y Y Y服从高斯分布
- 链接函数是恒等函数(identity function)
- 条件均值 μ = η = X β μ = η = Xβ μ=η=Xβ
等价表示:
- 线性回归可以看作:内积层(输入特征的线性组合) + 均方差损失(MSE, 在Caffe中称为EuclideanLoss)
为什么是GLM?
当将高斯分布表示为指数族形式时,自然参数η正好等于均值μ,因此可以直接用线性预测器建模。
损失函数推导:
极大似然估计等价于最小化负对数似然:
L ( β ) = − Σ [ l o g p ( y i ∣ x i ; β ) ] ∝ Σ ( y i − x i T β ) 2 L(β) = -Σ[log p(yᵢ|xᵢ;β)] ∝ Σ(yᵢ - xᵢᵀβ)² L(β)=−Σ[logp(yi∣xi;β)]∝Σ(yi−xiTβ)2
这正是均方误差!
2. 逻辑回归(Logistic Regression)
模型假设:
- 响应变量Y服从伯努利分布
- 链接函数是logit函数: l o g ( μ / ( 1 − μ ) ) = η log(μ/(1-μ)) = η log(μ/(1−μ))=η
- 条件概率 μ = σ ( η ) = 1 ( 1 + e − η ) μ = σ(η) = \frac{1}{(1+e^{- η})} μ=σ(η)=(1+e−η)1,其中σ是sigmoid函数
等价表示:
- 逻辑回归可以看作:内积层 + Sigmoid激活函数 + 二元交叉熵损失(Binary CrossEntropy)
为什么是GLM?
伯努利分布可以表示为指数族形式,其自然参数η = log(μ/(1-μ)),这就是logit函数。
损失函数推导:
对于二元分类,负对数似然:
L ( β ) = − Σ [ y i l o g ( σ ( x i T β ) ) + ( 1 − y i ) l o g ( 1 − σ ( x i T β ) ) ] L(β) = -Σ[yᵢ log(σ(xᵢᵀβ)) + (1-yᵢ)log(1-σ(xᵢᵀβ))] L(β)=−Σ[yilog(σ(xiTβ))+(1−yi)log(1−σ(xiTβ))]
这正是二元交叉熵损失!
3. Softmax分类(Softmax Classification)
模型假设:
- 响应变量Y服从多项分布
- 链接函数是多项logit函数
- 条件概率 μ j = e η j / Σ e η i μⱼ = e^{ηⱼ}/Σe^{ηᵢ} μj=eηj/Σeηi
等价表示:
Softmax分类可以看作:内积层 + Softmax激活函数 + 分类交叉熵损失(Categorical CrossEntropy, 在Caffe中称为MultinomialLoss)
为什么是GLM?
多项分布也可以表示为指数族形式,使用softmax作为响应函数。
损失函数推导:
对于多类分类,负对数似然:
L ( β ) = − Σ Σ y i j l o g ( s o f t m a x ( x i T β ) j ) L(β) = -ΣΣ yᵢⱼ log(softmax(xᵢᵀβ)ⱼ) L(β)=−ΣΣyijlog(softmax(xiTβ)j)
这正是分类交叉熵损失!
三者的比较与联系
特征 | 线性回归 | 逻辑回归 | Softmax分类 |
---|---|---|---|
响应变量分布 | 高斯分布 | 伯努利分布 | 多项分布 |
链接函数 | 恒等函数 | Logit函数 | 多项Logit函数 |
激活函数 | 无 | Sigmoid | Softmax |
损失函数 | 均方误差 | 二元交叉熵 | 分类交叉熵 |
输出类型 | 连续值 | 二元概率 | 多元概率分布 |
适用任务 | 回归 | 二元分类 | 多类分类 |
尽管这三个模型解决的问题不同,但从GLM的角度看,它们都遵循相同的建模范式:
- 假设响应变量来自特定的指数族分布
- 通过线性预测器建模自然参数
- 使用适当的链接函数连接线性预测和响应变量
- 通过极大似然估计进行参数学习
实践中的注意事项
-
模型选择:
- 预测连续值 → 线性回归
- 预测二元类别 → 逻辑回归
- 预测多类类别 → Softmax分类
-
正则化:三者都可以加入 L 1 / L 2 L_1/L_2 L1/L2正则化防止过拟合,分别得到 L a s s o / R i d g e Lasso/Ridge Lasso/Ridge回归、 L 1 / L 2 L_1/L_2 L1/L2正则化逻辑回归等变体。
-
数值稳定性:
- 实现Softmax时注意数值稳定性问题(减去最大值后再指数化)
- 交叉熵损失实现时注意log(0)情况的处理
-
优化方法:由于都是凸优化问题(线性回归严格凸,逻辑回归和Softmax分类在数据线性可分时可能不是严格凸),可以使用梯度下降、牛顿法等优化算法。
从GLM到深度学习
- 理解这些传统模型与神经网络组件之间的对应关系对学习深度学习非常重要:
- 内积层 → 全连接层(无激活函数)
- 内积层+Sigmoid → 二元分类的神经网络输出层
- 内积层+Softmax → 多类分类的神经网络输出层
- 相应的损失函数在深度学习中同样适用
这种对应关系显示了传统机器学习与深度学习之间的连续性,也解释了为什么这些损失函数在深度学习中仍然被广泛使用。
结语:统一之美
-
通过广义线性模型的框架,我们看到了三种看似不同的模型背后统一的数学基础。这种理解不仅具有理论美感,更有重要的实践意义:
- 它帮助我们系统性地组织和记忆这些模型
- 当面对新问题时,我们可以基于数据特性选择合适的分布和链接函数
- 为理解更复杂的模型(如广义加性模型、神经网络等)奠定了基础
-
正如统计学家George Box所说:"所有的模型都是错的,但有些是有用的。"理解这些模型之间的联系,能让我们在"模型工具箱"中选择最合适的工具来解决实际问题。