当前位置：首页 > news >正文

类神经网络训练失败怎么办?

news 2025/7/2 1:52:53

1.optimization fails

可能是我们陷入了local minima, saddle point(鞍点)

也可以说卡在critical point.

如果我们卡在saddle point的话,我们有办法可以突破

这个loss function是结合了泰勒展开和海森矩阵的式子

具体是怎么判断的呢,我们知道二阶导其实就是凹凸性,我们就可以根据这个来进行critical points的判断,结合矩阵的特征值 :

在我们判断了这个critical points 后,如果是saddle point, 我们可以找到负的特征值,然后找到特征向量,朝着这个方向,可以减少loss 我们可能会疑惑:local minima和saddle point哪个更常见呢,其实我们可以通过升维来进行降维打击,比如说,在二维中看起来像local minimum,但是我们升到三维,它就有可能是saddle point,所以local minimum并没有我们想象的那么多

2.batch and momentum

我们为什么要用batch,假如我们没有设置batch(full batch), 那么我们的batch size 就是n,我们的model 需要一次性看完所有data才会update一次参数,而设置了batch,我们就可以每一个batch就update 一次参数,但是设置batch相对不准,不设置batch需要运行的时间会长,当然,实际运算的时候,不一定full batch的时间会更长:

我们有gpu做平行运算 ,这些data会被平行计算,但还是会增长,full batch的size如果很大,那么需要的时间就会长很多,但是,不代表每个epoch的速度会慢,因为batch越小,有越多的update,就要花更多的时间去update

当然这是在运行速度方面来看,如果显存大,我们可以用空间换时间,来让运行速度加快,但从结果来看,却不一定:

虽然说batch小的话,产生的结果可能会noisy,但从整体上看,竟然是相反的 ,为什么会这样呢:

batch不一样后,输入数据不一样,也可以有效避免stuck ,就算training的效果差不多,test的表现还是小batch好:

大的batchsize会倾向于走到bad minima:

batch size选择:

对于momentum,我们可以引入这么一个例子:在现实世界中,因为惯性,小球会冲出这个local minima

然后是这么实现的,根据前一步的movement和本身的这个gradient方向:

增加了跳过minima的概率

http://www.xdnf.cn/news/414685.html

相关文章：

中央处理器（CPU）(概述、指令周期)

阿里云服务器核心用途解析：从基础应用到行业创新

c++刷题便捷函数（类似于stoi的小函数）

超越合并速度（merge speed）：AI如何重塑开发者协作

Hadoop集群的常用命令

axi uart 16550 ip core使用流程

一、HAL库的设计理念详解：从架构到实践

StringBuilder,StringJoiner,StringBuffer字符串处理类深度解析

从零到精通：GoFrame 的 garray 模块深度解析与实战经验分享

Nacos源码—8.Nacos升级gRPC分析五

【K8S学习之生命周期钩子】详细了解 postStart 和 preStop 生命周期钩子

【日撸 Java 三百行】Day 13（链表）

【AIGC梦幻婚纱美学】：白纱与花卉的浪漫算法融合

2025-5-12 底部埋伏记录

Matlab 基于GUI的图像去雾技术GlobalHisteq、LocalHisteq和Retinex

基于世界土壤数据库（HWSD）的中国土壤数据集(v1.1)（2009）

大核极坐标码

耀圣-高温釜进料口气动耐磨切断球阀：高粘度、高腐蚀颗粒介质的终极进料解决方案

DeepSeek | AI需求分析

手机电池健康提示怎么看？

封装echarts的柱状图+折线图+堆积图

使用 Watt toolkit 加速 git clone

栈和队列复习（C语言版）

判断一个数组有没有重复值

k8s监控方案实践（三）：部署与配置Grafana可视化平台

【Redis】键值对数据库实现

Tenacity 高级使用指南：Python 重试机制的终极解决方案

使用ACE-Step在本地生成AI音乐