当前位置：首页 > java >正文

逻辑回归（Logistic Regression）

java 2025/7/14 17:35:16

逻辑回归（Logistic Regression）

原理

通过 Sigmoid函数（ $\frac{1}{1+e^{-z}}$ ）将线性回归输出 $z = w^Tx + b$ 映射到 [0,1] 区间
输出值表示样本属于正类的概率： $P(y=1|x) = σ(w^Tx + b)$
决策边界为线性超平面（ $w^Tx + b = 0$ ）

损失函数

对数损失（Log Loss）：
$-\frac{1}{N}\sum_{i=1}^N \left[ y_i \log(p_i) + (1-y_i)\log(1-p_i) \right]$
其中 $p_i = σ(w^Tx_i + b)$ ， $y_i$ 为真实标签

优化

梯度下降：通过计算损失函数对参数 $w$ 的偏导数迭代更新参数
更新公式： $\eta \frac{\partial L}{\partial w}$
可添加 正则化：
- L1正则： $L(w) + λ\|w\|_1$ （稀疏化特征选择）
- L2正则： $L(w) + λ\|w\|_2^2$ （防止过拟合）

特点

线性可分优势：当特征与目标呈近似线性关系时效果显著
概率输出：可直接输出分类概率，支持概率校准
可解释性：权重 $w$ 反映特征对预测结果的贡献度
局限性：无法直接处理非线性决策边界（需结合特征工程）
计算效率：训练和预测速度快，适合大规模数据

Q1: 为什么用最大似然估计而非 MSE？

1.1 概率解释与损失函数的一致性

最大似然估计（MLE）以概率模型为基础：对数损失（cross‑entropy）直接源自对数似然函数，度量模型预测分布与真实分布的 KL 散度，因而是“proper scoring rule”，能确保学习到的模型在概率意义下最优化。
MSE 损失则假设目标变量满足高斯噪声模型，难以直接反映二分类的伯努利分布假设，其在分类问题上缺乏概率解释且易导致偏差的概率估计。

1.2 凸性与优化优势

对数损失在逻辑回归中的目标函数（负对数似然）是凸函数，全局只有唯一最小值，保证梯度下降等凸优化算法从任意起点都能收敛到全局最优。
将 MSE 与 Sigmoid 结合的损失（即 ((\sigma(w^T x) - y)^2)）在参数空间上并非凸函数，存在多个局部极小点，会使训练过程易陷入局部最优，难以保证全局最优。

1.3 统计一致性与效率

MLE 估计在大样本极限下具有一致性和渐近正态性，能够提供高效（asymptotically efficient）的参数估计与可信区间；而对 MSE 优化得出的参数在分类场景下并不保证具备上述统计性质 :contentReference[oaicite:4]{index=4}。
Cross‑entropy 损失对应的梯度更平滑，尤其在样本类别不平衡时，相比 MSE 报错（即梯度消失或爆炸）更稳定，也更利于深度学习框架中的批量优化。

Q2: 逻辑回归如何做多分类？

逻辑回归本身是针对二分类问题的，但可以通过两种主要策略拓展到多分类场景。

2.1 OvR（One‑vs‑Rest，一对多）

训练阶段：对每个类别 (k)，构建一个二分类器，将该类别作为正类，其他所有类别作为负类，总共训练 (K) 个独立的二分类逻辑回归模型。
预测阶段：对新样本，分别计算每个二分类器输出为“正类”的分数或概率，选取概率最大的类别作为最终预测标签。
优缺点：实现简单且可以复用现有二分类器；但不同分类器的输出分数尺度可能不一致，且在类别数较多时训练成本线性增长 :contentReference[oaicite:6]{index=6}。

2.2 Softmax 回归（多项式逻辑回归）

模型形式：对输入 (x) 计算每个类别的线性得分 (z_k = w_k^T x + b_k)，再通过 Softmax 函数归一化：
$\mid x) = \frac{e^{z_k}}{\sum_{j=1}^K e^{z_j}}$
损失函数：采用多类交叉熵（Negative Log‑Likelihood）：
$-\sum_{i=1}^N \sum_{k=1}^K y_{i,k} \log p(y_i=k \mid x_i)$
该损失对所有类别参数同时进行联合优化，且同样是凸函数（当不含正则项时）。
优缺点：模型输出直接给出“互斥”类别的概率分布，不会产生尺度不一致的问题；训练一次即可覆盖所有类别，通常在类别数较大时比 OvR 更高效。但模型规模与类别数同阶，参数量增长快，对数据量要求更高。

http://www.xdnf.cn/news/833.html

相关文章：

解决 Arduino IDE 2.3.6 在 Windows 上无法启动：缺少 Documents 文件夹与注册表路径错误

javaSE.哈希表

消息中间件RabbitMQ：简要介绍及其Windows安装流程

C++初阶——模板

C#—Lazy＜T＞类型(延迟初始化/懒加载模式)

(cvpr2025) LSNet: See Large, Focus Small

Java 设计模式心法之第3篇 - 总纲：三大流派与导航地图

使用json_repair修复大模型的json输出错误

小天互连：助力信创产业的国产化即时通讯系统

alibaba-JSONObject使用

无人船 | 图解基于PID控制的路径跟踪算法(以全驱动无人艇WAMV为例)

FlaskRestfulAPI接口的初步认识

文件包含漏洞，目录遍历漏洞，CSRF，SSRF

iFable，AI角色扮演互动平台，自动生成沉浸式故事游戏

Yocto项目实战教程‑第6章‑Poky‑镜像菜谱‑机器配置文件‑发行版配置文件‑QEMU

Pandas高级功能

项目二 - 任务7：统计一组学生成绩

2021-11-14 C++三七二十一数

【二叉树专题】一道深入浅出的 DFS 题：求二叉树的直径（含通俗易懂讲解）

996引擎-坐骑系统：官方坐骑系统+设置外观实现方案

OpenCSG AutoHub v0.5.0 版本发布

快速从S32K358切换到328

【C++】异常处理

用P0口控制LED(STC89C52单片机)

对于校园网如何进行用户识别——captive portal的原理学习总结

10 C 语言常量详解：#define 与 const 定义常量及其区别与应用

延长（暂停）Windows更新

【C++详解】C++入门(一)命名空间、缺省参数、函数重载

【牛客练习赛137 C】题解