当前位置: 首页 > web >正文

L1、L2正则化的几何解释

L2正则化:

图中用几何方式形象地解释了 Ridge 回归(L2正则化)的原理。

① 阴影圆:可以理解为(w1^2 + w2^2)​≤R^2,圆周表示目标函数的约束线,这个圆表示了我们的参数 (w1,w2)可以活动的范围。

  • 为什么要约束? 因为如果权重太大,模型在训练集上可能表现极好(拟合很好),但在新数据上的表现会大幅下降(过拟合)。
  • R 越小意味着什么?圆变小,给权重的空间就越小,惩罚越强,模型更简单,更不容易过拟合。R 越大,模型约等于普通线性回归(无正则化)。

② 最小化成本点(最小二乘估计点)在图中心的黑点,就是普通线性回归的最小二乘解,也就是“拟合训练数据最好的点”

  • 用等高线(椭圆)表现:图里一圈一圈的椭圆,代表对于不同 (w1,w2)参数组合的损失(成本)大小。
    • 离中心越近,损失越小(拟合训练集效果越好)。
    • 离中心越远,损失越大(拟合效果变差)。
  • 过拟合的风险:最小化成本点其实对训练集来说是最优解,但往往会过拟合,也就是在新数据上表现很差。所以我们不总是选这个点作为模型的最终解。

我们的目标:不是单纯让损失最小,而是让损失和权重大小都要“

约束下的最优解是什么?

  • 如果没有约束,解就在最小化成本点(中心)。
  • 有了约束之后,我们只能在圆内找解:我们希望找一个既让损失足够小,又不会让参数过大(也就是不过拟合)

最终解的位置

  • 这就是图里圆和某个等高线“刚好相切”的那个点,既满足了“损失尽量小”,又不超出圆圈(不让参数过大)。这个点就是 带有L2惩罚的解。

L1正则化:

L1, L2 的区别

对于 L2 来说,限定区域是圆,这样,得到的解 w1 或 w2 为 0 的概率很小,很大概率是非零的。

对于 L1 来说,限定区域是正方形,方形的最优解位置通常是在是尖锐点,这从视觉和常识上来看是很容易理解的。也就是说,方形的凸点会更接近最优解对应的 w 位置,而从图中我们可以知道凸点处必有 w1 或 w2 为 0。这样,得到的解 w1 或 w2 为零的概率就很大了。

reference:

以几何思维理解L1&L2正则化 - 简书

(5 封私信) 【通俗易懂】机器学习中 L1 和 L2 正则化的直观解释 - 知乎

http://www.xdnf.cn/news/16999.html

相关文章:

  • Redis 通用命令
  • Git、Gitee、GitHub、GitLab完整讲解:从基础到进阶
  • 【BTC】挖矿
  • 编程与数学 03-002 计算机网络 19_网络新技术研究
  • Android 15 中禁用/启用应用的系统级方法
  • GaussDB 约束的使用举例
  • 机器人学中路径规划(Path Planning)和轨迹生成(Trajectory Generation)关系
  • 小智服务器Java安装编译(xinnan-tech)版
  • 麦肯锡咨询公司PEI经典面试题目汇总
  • gbase8s 常见表约束介绍
  • 18-C语言:第19天笔记
  • 知识随记-----Qt 实战教程:使用 QNetworkAccessManager 发送 HTTP POST
  • Ubuntu系统VScode实现opencv(c++)图像翻转和旋转
  • Java语言核心特性全解析:从面向对象到跨平台原理
  • 【学习笔记】Java并发编程的艺术——第1章 并发编程的挑战
  • 前端开发(HTML,CSS,VUE,JS)从入门到精通!第三天(JavaScript)
  • Maven - 并行安全无重复打包构建原理揭秘
  • sqli-labs通关笔记-第28a关GET字符注入(关键字过滤绕过 手注法)
  • 如何设置主机IP地址
  • 用纳米AI一键生成Python屏幕监控软件
  • Python编程基础与实践:Python循环结构基础
  • 【图像处理基石】用Python实现基础滤镜效果
  • QPainter::CompositionMode解析
  • 智能学号抽取系统V5.6.4重磅发布
  • MyBatis 批量操作 XML 实现方式
  • 大模型(五)MOSS-TTSD学习
  • Windows 环境 psql 客户端连接数据库超慢问题
  • Mac电脑安装HomeBrew
  • GitHub 趋势日报 (2025年08月01日)
  • 【转】大模型安全治理的现状与展望