当前位置: 首页 > java >正文

逻辑回归(Logistic Regression)

逻辑回归(Logistic Regression)

原理
  • 通过 Sigmoid函数 σ ( z ) = 1 1 + e − z σ(z) = \frac{1}{1+e^{-z}} σ(z)=1+ez1)将线性回归输出 z = w T x + b z = w^Tx + b z=wTx+b 映射到 [0,1] 区间
  • 输出值表示样本属于正类的概率: P ( y = 1 ∣ x ) = σ ( w T x + b ) P(y=1|x) = σ(w^Tx + b) P(y=1∣x)=σ(wTx+b)
  • 决策边界为线性超平面( w T x + b = 0 w^Tx + b = 0 wTx+b=0
损失函数
  • 对数损失(Log Loss)
    L ( w ) = − 1 N ∑ i = 1 N [ y i log ⁡ ( p i ) + ( 1 − y i ) log ⁡ ( 1 − p i ) ] L(w) = -\frac{1}{N}\sum_{i=1}^N \left[ y_i \log(p_i) + (1-y_i)\log(1-p_i) \right] L(w)=N1i=1N[yilog(pi)+(1yi)log(1pi)]
    其中 p i = σ ( w T x i + b ) p_i = σ(w^Tx_i + b) pi=σ(wTxi+b) y i y_i yi 为真实标签
优化
  • 梯度下降:通过计算损失函数对参数 w w w 的偏导数迭代更新参数
    更新公式: w : = w − η ∂ L ∂ w w := w - \eta \frac{\partial L}{\partial w} w:=wηwL
  • 可添加 正则化
    • L1正则 L ( w ) + λ ∥ w ∥ 1 L(w) + λ\|w\|_1 L(w)+λw1(稀疏化特征选择)
    • L2正则 L ( w ) + λ ∥ w ∥ 2 2 L(w) + λ\|w\|_2^2 L(w)+λw22(防止过拟合)
特点
  • 线性可分优势:当特征与目标呈近似线性关系时效果显著
  • 概率输出:可直接输出分类概率,支持概率校准
  • 可解释性:权重 w w w 反映特征对预测结果的贡献度
  • 局限性:无法直接处理非线性决策边界(需结合特征工程)
  • 计算效率:训练和预测速度快,适合大规模数据

Q1: 为什么用最大似然估计而非 MSE?

1.1 概率解释与损失函数的一致性
  • 最大似然估计(MLE)以概率模型为基础:对数损失(cross‑entropy)直接源自对数似然函数,度量模型预测分布与真实分布的 KL 散度,因而是“proper scoring rule”,能确保学习到的模型在概率意义下最优化。
  • MSE 损失则假设目标变量满足高斯噪声模型,难以直接反映二分类的伯努利分布假设,其在分类问题上缺乏概率解释且易导致偏差的概率估计。
1.2 凸性与优化优势
  • 对数损失在逻辑回归中的目标函数(负对数似然)是凸函数,全局只有唯一最小值,保证梯度下降等凸优化算法从任意起点都能收敛到全局最优。
  • 将 MSE 与 Sigmoid 结合的损失(即 ((\sigma(w^T x) - y)^2))在参数空间上并非凸函数,存在多个局部极小点,会使训练过程易陷入局部最优,难以保证全局最优。
1.3 统计一致性与效率
  • MLE 估计在大样本极限下具有一致性渐近正态性,能够提供高效(asymptotically efficient)的参数估计与可信区间;而对 MSE 优化得出的参数在分类场景下并不保证具备上述统计性质 :contentReference[oaicite:4]{index=4}。
  • Cross‑entropy 损失对应的梯度更平滑,尤其在样本类别不平衡时,相比 MSE 报错(即梯度消失或爆炸)更稳定,也更利于深度学习框架中的批量优化 。

Q2: 逻辑回归如何做多分类?

逻辑回归本身是针对二分类问题的,但可以通过两种主要策略拓展到多分类场景。

2.1 OvR(One‑vs‑Rest,一对多)
  1. 训练阶段:对每个类别 (k),构建一个二分类器,将该类别作为正类,其他所有类别作为负类,总共训练 (K) 个独立的二分类逻辑回归模型。
  2. 预测阶段:对新样本,分别计算每个二分类器输出为“正类”的分数或概率,选取概率最大的类别作为最终预测标签。
  3. 优缺点:实现简单且可以复用现有二分类器;但不同分类器的输出分数尺度可能不一致,且在类别数较多时训练成本线性增长 :contentReference[oaicite:6]{index=6}。
2.2 Softmax 回归(多项式逻辑回归)
  1. 模型形式:对输入 (x) 计算每个类别的线性得分 (z_k = w_k^T x + b_k),再通过 Softmax 函数归一化:
    p ( y = k ∣ x ) = e z k ∑ j = 1 K e z j p(y=k \mid x) = \frac{e^{z_k}}{\sum_{j=1}^K e^{z_j}} p(y=kx)=j=1Kezjezk
  2. 损失函数:采用多类交叉熵(Negative Log‑Likelihood):
    L = − ∑ i = 1 N ∑ k = 1 K y i , k log ⁡ p ( y i = k ∣ x i ) L = -\sum_{i=1}^N \sum_{k=1}^K y_{i,k} \log p(y_i=k \mid x_i) L=i=1Nk=1Kyi,klogp(yi=kxi)
    该损失对所有类别参数同时进行联合优化,且同样是凸函数(当不含正则项时)。
  3. 优缺点:模型输出直接给出“互斥”类别的概率分布,不会产生尺度不一致的问题;训练一次即可覆盖所有类别,通常在类别数较大时比 OvR 更高效。但模型规模与类别数同阶,参数量增长快,对数据量要求更高 。
http://www.xdnf.cn/news/833.html

相关文章:

  • 解决 Arduino IDE 2.3.6 在 Windows 上无法启动:缺少 Documents 文件夹与注册表路径错误
  • javaSE.哈希表
  • 消息中间件RabbitMQ:简要介绍及其Windows安装流程
  • C++初阶——模板
  • C#—Lazy<T> 类型(延迟初始化/懒加载模式)
  • (cvpr2025) LSNet: See Large, Focus Small
  • Java 设计模式心法之第3篇 - 总纲:三大流派与导航地图
  • 使用json_repair修复大模型的json输出错误
  • 小天互连:助力信创产业的国产化即时通讯系统
  • alibaba-JSONObject使用
  • 无人船 | 图解基于PID控制的路径跟踪算法(以全驱动无人艇WAMV为例)
  • FlaskRestfulAPI接口的初步认识
  • 文件包含漏洞,目录遍历漏洞,CSRF,SSRF
  • iFable,AI角色扮演互动平台,自动生成沉浸式故事游戏
  • Yocto项目实战教程‑第6章‑Poky‑镜像菜谱‑机器配置文件‑发行版配置文件‑QEMU
  • Pandas高级功能
  • 项目二 - 任务7:统计一组学生成绩
  • 2021-11-14 C++三七二十一数
  • 【二叉树专题】一道深入浅出的 DFS 题:求二叉树的直径(含通俗易懂讲解)
  • 996引擎-坐骑系统:官方坐骑系统+设置外观实现方案
  • OpenCSG AutoHub v0.5.0 版本发布
  • 快速从S32K358切换到328
  • 【C++】异常处理
  • 进程控制II
  • 用P0口控制LED(STC89C52单片机)
  • 对于校园网如何进行用户识别——captive portal的原理学习总结
  • 10 C 语言常量详解:#define 与 const 定义常量及其区别与应用
  • 延长(暂停)Windows更新
  • 【C++详解】C++入门(一)命名空间、缺省参数、函数重载
  • 【牛客练习赛137 C】题解