当前位置：首页 > java >正文

从FP32到BF16，再到混合精度的全景解析

java 2025/7/4 23:20:22

笔者做过目标检测模型、超分模型以及扩散生成模型。其中最常使用的是单精度FP32、半精度FP16、BF16。
双精度"FP64"就不说了，不太会用到。

#1. 单精度、半精度和混合精度

单精度（FP32）、半精度（FP16）和混合精度（FP32+FP16） 是常见的浮点数计算格式，在深度学习模型的训练与推理中都有涉及。
它们在计算效率、显存占用和数值稳定性上有显著差异。以下是它们的核心区别对比：

精度类型	位数	显存占用&生成效果	生成速度	用途
FP32	32-bit	🌟🌟🌟🌟最高	🌟最慢	预训练
FP16	16-bit	🌟🌟	🌟🌟🌟	微调训练、推理
BF16	16-bit	🌟🌟	🌟🌟🌟	微调训练、推理
混合精度	FP16+FP32	🌟🌟🌟	🌟🌟	微调训练、推理
FP8 (E4M3)	8-bit	🌟最低	🌟🌟🌟🌟最快	边缘设备推理
FP8 (E5M2)	8-bit	🌟最低	🌟🌟🌟🌟最快	边缘设备推理

注：推理即图像生成。

#2. BF16（Brain Float16）是什么？

简单的说，「BF16」的显存占用与「FP16」相近，但稳定性与训练效果更好。所以在训练时建议用「BF16」替代「FP16」。

「BF16」由 Google Brain 提出，保留与 FP32 相同的指数位数（8 位指数），仅降低小数位数（从FP32的23 位缩减到7位）。虽然BF16点小数部分精度低于 FP16的10位，但这部分对深度学习影响较小，可以暂时忽略。

#3. 混合精度（FP16 + FP32）是什么？

混合精度会同时使用 FP16 和 FP32，关键部分（如梯度更新）保留 FP32。

笔者一般会直接使用自动混合精度（AMP），即让程序自己选择精度，一般来讲模型权重会保存为FP32，前向与反向传播用FP16。

#4. FP8的简单了解

实际中很少使用FP8，因为它们的生成效果几乎是最差的（不管INT8），基本只会用于边缘设备（如RV1126等）。所以只需简单了解：

E5M2（5 位指数，2 位小数）：动态范围大，适合梯度计算（训练）。
E4M3（4 位指数，3 位小数）：精度稍高，适合前向传播（生成）。

http://www.xdnf.cn/news/1997.html

相关文章：

高等数学第二章---导数与微分（2.1~2.3）

多模态大语言模型arxiv论文略读（四十）

语音合成之五语音合成中的“一对多”问题主流模型解决方案分析

Synopsys 逻辑综合的整体架构概览

vscode 打开csv乱码

4.5/Q1，GBD数据库最新文章解读

Dubbo负载均衡策略深度解析

洛谷 B3647：【模板】Floyd 算法

筑牢数字防线：商城系统安全的多维守护策略

《解锁LLMs from scratch：开启大语言模型的探索之旅》

Electron Forge【实战】阿里百炼大模型 —— AI 聊天

BGP网络协议

数据可视化平台产品介绍及功能特色

.NET 10 中的新增功能

力扣347：前K个高频元素

文章记单词 | 第43篇（六级）

Kafka和flume整合

cJSON中#define cJSON_IsReference 256 和 #define cJSON_StringIsConst 512这定义的大小是？

CSS常见布局

逐行解析性能奥秘：借助 `line_profiler` 深入优化热点函数

MySQL 从入门到精通：第二篇 - 数据类型、约束与索引

【华为HCIP | 华为数通工程师】821—多选解析—第十六页

那些年踩过的坑之Arrays.asList

CC攻击的类型都有哪些？

eclipse怎么导入junit4

解读《数据资产质量评估实施规则》：企业数据资产认证落地的关键指南

MCP（Model Context Protocol）

AlarmClock4.8.4(官方版)桌面时钟工具软件下载安装教程

Zephyr kernel Build System (CMake)介绍

MySQL引擎分类与选择、SQL更新底层实现、分库分表、读写分离、主从复制 - 面试实战