低精度训练一:低精度训练介绍与大模型下载
低精度训练一:低精度训练介绍与大模型下载
- 低精度训练与模型下载
-
- 低精度训练背景介绍
- 基于model scope的大模型下载
- 代码
低精度训练与模型下载
低精度训练背景介绍
- 大模型训练的难点是什么
- 计算效率
- 大模型的训练依赖于海量的训练数据,海量的训练数据带来了海量的计算需求
- 显存效率
- 大模型主要体现在模型参数规模上,参数规模逐渐变大的模型对显存的依赖逐渐加剧
- 计算效率
- 模型训练的显存占用
- 模型权重
- 4 Bytes*模型参数量
- 优化器状态
- 8 Bytes*模型参数量,对于常用的AdamW优化器而言
- 梯度
- 4 Bytes*模型参数量
- 前向激活值
- 取决于序列长度、隐层维度、Batch大小等多个因素
- 如何降低训练时的显存占用?
- 实战演练篇一一4G显存,0.3B模型
- 梯度累计
- 梯度检查点
- 优化器配置
- 输入数据长度
- 冻结模型参数
- 参数高效微调篇一一8G显存,1.4B模型
- 参数高效微调