当前位置：首页 > web >正文

L1、L2正则化的几何解释

web 2025/8/4 18:04:05

L2正则化:

图中用几何方式形象地解释了 Ridge 回归（L2正则化）的原理。

① 阴影圆：可以理解为（w1^2 + w2^2）≤R^2，圆周表示目标函数的约束线，这个圆表示了我们的参数 (w1,w2)可以活动的范围。

为什么要约束？ 因为如果权重太大，模型在训练集上可能表现极好（拟合很好），但在新数据上的表现会大幅下降（过拟合）。
R 越小意味着什么？圆变小，给权重的空间就越小，惩罚越强，模型更简单，更不容易过拟合。R 越大，模型约等于普通线性回归（无正则化）。

② 最小化成本点（最小二乘估计点）：在图中心的黑点，就是普通线性回归的最小二乘解，也就是“拟合训练数据最好的点”

用等高线（椭圆）表现：图里一圈一圈的椭圆，代表对于不同 (w1,w2)参数组合的损失（成本）大小。
- 离中心越近，损失越小（拟合训练集效果越好）。
- 离中心越远，损失越大（拟合效果变差）。
过拟合的风险：最小化成本点其实对训练集来说是最优解，但往往会过拟合，也就是在新数据上表现很差。所以我们不总是选这个点作为模型的最终解。

我们的目标：不是单纯让损失最小，而是让损失和权重大小都要“

约束下的最优解是什么？

如果没有约束，解就在最小化成本点（中心）。
有了约束之后，我们只能在圆内找解：我们希望找一个既让损失足够小，又不会让参数过大（也就是不过拟合）。

最终解的位置：

这就是图里圆和某个等高线“刚好相切”的那个点，既满足了“损失尽量小”，又不超出圆圈（不让参数过大）。这个点就是带有L2惩罚的解。

L1正则化:

L1, L2 的区别

对于 L2 来说，限定区域是圆，这样，得到的解 w1 或 w2 为 0 的概率很小，很大概率是非零的。

对于 L1 来说，限定区域是正方形，方形的最优解位置通常是在是尖锐点，这从视觉和常识上来看是很容易理解的。也就是说，方形的凸点会更接近最优解对应的 w 位置，而从图中我们可以知道凸点处必有 w1 或 w2 为 0。这样，得到的解 w1 或 w2 为零的概率就很大了。

reference:

以几何思维理解L1&L2正则化 - 简书

(5 封私信) 【通俗易懂】机器学习中 L1 和 L2 正则化的直观解释 - 知乎

http://www.xdnf.cn/news/16999.html

相关文章：

Redis 通用命令

Git、Gitee、GitHub、GitLab完整讲解：从基础到进阶

【BTC】挖矿

编程与数学 03-002 计算机网络 19_网络新技术研究

Android 15 中禁用/启用应用的系统级方法

GaussDB 约束的使用举例

机器人学中路径规划（Path Planning）和轨迹生成（Trajectory Generation）关系

小智服务器Java安装编译(xinnan-tech)版

麦肯锡咨询公司PEI经典面试题目汇总

gbase8s 常见表约束介绍

18-C语言：第19天笔记

知识随记-----Qt 实战教程：使用 QNetworkAccessManager 发送 HTTP POST

Ubuntu系统VScode实现opencv（c++）图像翻转和旋转

Java语言核心特性全解析：从面向对象到跨平台原理

【学习笔记】Java并发编程的艺术——第1章并发编程的挑战

前端开发(HTML,CSS,VUE,JS)从入门到精通！第三天(JavaScript)

Maven - 并行安全无重复打包构建原理揭秘

sqli-labs通关笔记-第28a关GET字符注入(关键字过滤绕过手注法)

如何设置主机IP地址

用纳米AI一键生成Python屏幕监控软件

Python编程基础与实践:Python循环结构基础

【图像处理基石】用Python实现基础滤镜效果

QPainter::CompositionMode解析

智能学号抽取系统V5.6.4重磅发布

MyBatis 批量操作 XML 实现方式

大模型（五）MOSS-TTSD学习

Windows 环境 psql 客户端连接数据库超慢问题

Mac电脑安装HomeBrew

GitHub 趋势日报 (2025年08月01日)

【转】大模型安全治理的现状与展望