当前位置: 首页 > news >正文

梯度下降的基本原理

序言:最近再整理之前的一些笔记,感觉梯度下降之前整理的很详细也很杂乱,删了也不是,留着看着也烦,就发到这里来当个备用吧。

随机梯度下降(SGD)

求极小值:①有条件的极小值(有条件的用拉格朗日),②无条件的极小值(无条件的用梯度下降)。

梯度是什么:

梯度有什么用:

怎么走:

梯度下降的迭代举例:

关键算法:

Momentum算法

NAG算法

Adagrad算法

RMSprop算法

解决了Adagrad算法中学习率衰减过快的问题。

改进点:1.时间窗口机制

2.均值代替平方和

3.历史梯度均值和当前梯度加权平均

AdaDelta算法

Adam算法

Adam吸收了Adagrad(自适应学习率的梯度下降算法)和动量梯度下降算法的优点既能适应稀疏梯度(即自然语言和计算机视觉问题),又能缓解梯度震荡的问题.

http://www.xdnf.cn/news/1227061.html

相关文章:

  • 【Shell脚本自动化编写——报警邮件,检查磁盘,web服务检测】
  • 如何理解推理模型
  • Windows和Linux的tree工具
  • 系统开机时自动执行指令
  • 力扣热题100---------206.反转链表
  • 查看主板信息的3种方法
  • 大模型推理引擎总结
  • 神经网络学习笔记
  • 每日面试题18:基本数据类型和引用数据类型的区别
  • 8.1IO进程线程——文件IO函数
  • Springboot 配置 doris 连接
  • LRU缓存淘汰算法的详细介绍与具体实现
  • VSCode Python 与 C++ 联合调试配置指南
  • 电商项目_性能优化_数据同步
  • Python day31
  • Implement recovery based on PITR using dump file and binlog
  • U-Net vs. 传统CNN:为什么医学图像分割需要跳过连接?
  • 使用gcc代替v语言的tcc编译器提高编译后二进制文件执行速度
  • 9.1无法恢复的错误与 panic!
  • 第二十三天(数据结构:链表补充【希尔表】)
  • golang的函数
  • 完整复现cacti的RCE
  • 机试01-C++基础语法与库函数
  • 大模型结构比较
  • python学智能算法(三十))|SVM-KKT条件的数学理解
  • 第七章 愿景12 小萍分享《人性的弱点》
  • WaitForSingleObject 函数参数影响及信号处理分析
  • C语言:20250801学习(构造类型)
  • JS-第十九天-事件(一)
  • 通过观看数百个外科手术视频课程来学习多模态表征|文献速递-医学影像算法文献分享