当前位置: 首页 > news >正文

嵌入式学习-(李宏毅)机器学习(5)-day32

如果training 的 loss比较大可能是model bias 也可能是 optimization;如果是model bias,把model变复杂一点,如果是optimization,那就是局部最优解。

如果training的loss小了的话,在看看Testing data 如果Testing data 的loss大的话,那就是overfitting,1,可以增加数据集 2,也可以让模型变得简单一些 3,可以data augmentation(就是用一些对于这个问题的理解,自己创造出一些资料,照片的翻转,截一块下来,不能随便乱做,要做的有道理)4.early stopping 5,less features 6,regularization

限制太多后,就变成了一个直线,这又变成model bias 了

有一点矛盾的地方

 蓝线是随着模型复杂程度,模型越复杂,training loss 越低

红显示在Testing loss随着模型越复杂,Testing的loss反而越高

怎么选出中间这个呢

很直觉的是中间那个最好。
下一节课 optimization

loss不变往往认为微分到0 了

常常是local minima,也有可能是鞍点

像这些点都叫做critical point 

我们有没有办法知道是local minima 还是卡在saddle point

在 saddle point 的话说明还有路可以走的,我们要区分是local minima 还是 saddle point

怎么区分呢?用泰勒展开式

还是截图写一下 

g是一个微分向量,gi就是对setai的微分

(seta-seta撇)转置后乘以g向量

H是一个矩阵,是seta的二次微分(黑塞矩阵)

Hij = 先对i行进行微分后再对j列进行微分

当g为0时,我们可以根据泰勒公式的H来判断是极大值还是极小值还是鞍点

 

我们怎么可能把所有的V都带进去看呢

我们直接看H的特征值

如果特征值全是正的,那就是local minima

如果特征值全是负的 ,那就是local maxima

如果特征值是有正有负 ,那就是saddle point

 通过算二阶导发现特征值有正有负,那就代表是鞍点,H不光帮我们分辨是不是鞍点,还帮我们找到了update的方向,那就是特征值和特征向量

只要沿着负特征值的特征向量方向,就可以接着decrease L

但是实际上,几乎没有人用这个方法逃离saddle point 因为H矩阵太难求了,况且还要算出特征值特征向量

 拿出来讲是因为说 saddle point 不可怕

saddle point 和local minima 哪个更可怕

从经验上来讲,local minima没有那么常见,绝大部分都是在saddle point上停住了

 

http://www.xdnf.cn/news/1237861.html

相关文章:

  • 苍穹外卖项目学习——day1(项目概述、环境搭建)
  • 音视频学习(五十):音频无损压缩
  • 力扣-437.路径总和III
  • 深度学习中的模型知识蒸馏
  • 关于Web前端安全之XSS攻击防御增强方法
  • 广东省省考备考(第六十五天8.3)——判断推理:图形推理(数量规律题目总结)
  • C的运算符与表达式
  • C的数据类型与变量
  • lumerical——锥形波导偏振转换
  • 《前端无障碍设计的深层逻辑与实践路径》
  • JavaWeb学习------SpringCloud入门
  • Web 开发 11
  • JavaScript:编程世界中的“语盲”现象
  • CCF-GESP 等级考试 2025年6月认证C++一级真题解析
  • 推荐系统学习笔记(九)曝光过滤 Bloom Filter
  • 从传热学基础到有限元弱形式推导:拆解热传导问题Matlab有限元离散核心
  • Jupyter Notebook 中高效处理和实时展示来自 OpenCV 和 Pillow 的图像数据探究
  • 50天50个小项目 (Vue3 + Tailwindcss V4) ✨ | TodoList(代办事项组件)
  • Android 之 MVC架构
  • JVM学习日记(十五)Day15——性能监控与调优(二)
  • IO流-对象流
  • 回归的wry
  • 前后端交流
  • 电路原理图绘制专业实战教程2
  • Nginx负载均衡配置
  • 6. 平台总线
  • 跨语言模型中的翻译任务:XLM-RoBERTa在翻译任务中的应用
  • Compose笔记(四十一)--ExtendedFloatingActionButton
  • 有限元方法中的数值技术:三角矩阵求解
  • Redis面试精讲 Day 10:Redis数据结构底层实现原理