当前位置: 首页 > news >正文

deep learning(李宏毅)--(六)--loss

一,关于分类问题及其损失函数的一些讨论。

在构建分类模型是,我们的最后一层往往是softmax函数(起到归一化的作用),如果是二分类问题也可以用sigmoid函数。
 

在loss函数的选择上,一般采用交叉熵损失函数(cross-entropy),为什么呢?因为交叉熵损失函数更容易使得optimisization到达低loss(如下图:cross-entropy的梯度图更为陡)

 

二,对于Adam和SGDM梯度优化算法的比较

Adam:训练速度很快,但是收敛效果不佳

SGDM:训练速度平稳,收敛性较好

SWATS算法:Adam和SGDM算法的结合:(训练开始用Adam,在收敛时用SGDM) 

注意:使用Adam算法初始不稳定,需要进行预加热(Warm up) .

三,Radam算法与SWATS算法比较:
 

后面就有点听不懂了,以后了解更多再来听吧,做个记号。
(选修)To Learn More - Optimization for Deep Learning (2_2)_哔哩哔哩_bilibili 
笔记先做到这hh,有的笨,当先了解了。

 

 

http://www.xdnf.cn/news/1138861.html

相关文章:

  • 虚拟化测试工具Parasoft Virtualize如何为汽车企业提供仿真测试?
  • Helm-k8s包管理工具(一)核心概念、helm工作目录
  • 【Servo】伺服驱动器扫频功能方案文档
  • 有痛呻吟!!!
  • Redis面试相关问题总结
  • 离散与组合数学 杂记
  • 学习设计模式《十八》——备忘录模式
  • AI安全威胁之MCP Server投毒攻击实践
  • 深入理解进程等待:wait的简化与waitpid的灵活性
  • centos中新增硬盘挂载文件夹
  • 【FFmpeg 快速入门】本地播放器 项目
  • 林曦词典|文质彬彬
  • 物联网主机在化工园区安全风险智能化管控平台中的应用
  • mongodb 入门级别操作
  • 搞清MVCC
  • 优化 CSS 性能
  • 面试Redis篇-深入理解Redis缓存击穿
  • Selenium 启动的浏览器自动退出问题分析
  • 全面升级!WizTelemetry 可观测平台 2.0 深度解析:打造云原生时代的智能可观测平台
  • 杭州卓健信息科技有限公司 Java 面经
  • web前端渡一大师课 CSS属性计算过程
  • 损失函数的等高线与参数置零的关系
  • 从AWS MySQL数据库下载备份到S3的完整解决方案
  • Linux操作系统之线程:线程概念
  • mongodb-org-mongos : Depends: libssl1.1 (>= 1.1.1) but it is not installable
  • Java使用FastExcel实现Excel文件导入
  • 镁合金汽车零部件市场报告:行业现状、发展趋势与投资前景分析
  • 集群聊天服务器各个类进行详解
  • Docker国内镜像
  • 关于用git上传远程库的一些常见命令使用和常见问题: