当前位置: 首页 > java >正文

3B模型大概占多少存储

3B模型下大概占多少存储

  • 模型参数总量:3 × 10⁹ 个参数

  • 单位换算

    • 1 KB = 10³ 字节
    • 1 MB = 10⁶ 字节
    • 1 GB = 10⁹ 字节

下面将分别针对 FP32、FP16、INT8、INT4 四种精度,展示每个参数占用的字节数、计算公式,以及最终得到的磁盘占用。

1. FP32(单精度浮点)

  • 每参数字节数:4 字节
  • 参数总数:3 × 10⁹
计算步骤
  1. 先计算所有参数占用的总字节数:

    3 × 10⁹(参数) × 4(字节/参数) = 12 × 10⁹ 字节
    
  2. 将字节数转换为 GB:

    12 × 10⁹ 字节 ÷ (10⁹ 字节/GB) = 12 GB
    

结论:FP32 权重文件约 12 GB

2. FP16(半精度浮点)

  • 每参数字节数:2 字节
  • 参数总数:3 × 10⁹
计算步骤
  1. 计算总字节数:

    3 × 10⁹(参数) × 2(字节/参数) = 6 × 10⁹ 字节
    
  2. 转换为 GB:

    6 × 10⁹ 字节 ÷ (10⁹ 字节/GB) = 6 GB
    

结论:FP16 权重文件约 6 GB

3. INT8(8 位整数量化)

  • 每参数字节数:1 字节
  • 参数总数:3 × 10⁹
计算步骤
  1. 计算总字节数:

    3 × 10⁹(参数) × 1(字节/参数) = 3 × 10⁹ 字节
    
  2. 转换为 GB:

    3 × 10⁹ 字节 ÷ (10⁹ 字节/GB) = 3 GB
    

结论:INT8 权重文件约 3 GB

4. INT4(4 位整数量化)

  • 每参数字节数:0.5 字节

    • 4 位 = ½ 个字节
  • 参数总数:3 × 10⁹

计算步骤
  1. 计算总字节数:

    3 × 10⁹(参数) × 0.5(字节/参数) = 1.5 × 10⁹ 字节
    
  2. 转换为 GB:

    1.5 × 10⁹ 字节 ÷ (10⁹ 字节/GB) = 1.5 GB
    

结论:INT4 权重文件约 1.5 GB

汇总表格

精度类型每参数占用计算公式总字节数转换后大小说明
FP324 字节3 × 10⁹ × 4 = 12 × 10⁹ 字节12 × 10⁹ 字节12 GB单精度浮点,训练常用
FP162 字节3 × 10⁹ × 2 = 6 × 10⁹ 字节6 × 10⁹ 字节6 GB半精度浮点,推理常用
INT81 字节3 × 10⁹ × 1 = 3 × 10⁹ 字节3 × 10⁹ 字节3 GB8 位量化,适合边缘设备
INT40.5 字节3 × 10⁹ × 0.5 = 1.5 × 10⁹ 字节1.5 × 10⁹ 字节1.5 GB4 位量化,存储最小,但可能精度损失更大

说明:上表仅计算了模型权重文件的大小,不包含配置文件(config.json)、分词器文件(tokenizer.jsonvocab.txt 等)和可能存在的拆分索引文件。实际下载的文件夹会略大(通常额外增加几百 MB)。

总结

  • FP32(4 字节/参数):约 12 GB,适合训练阶段使用。
  • FP16(2 字节/参数):约 6 GB,兼顾精度与推理效率。
  • INT8(1 字节/参数):约 3 GB,适合资源受限的部署场景。
  • INT4(0.5 字节/参数):约 1.5 GB,存储需求最小,但相对更容易影响模型性能。

以 LLaMA 3.2 3B 模型为例,其在不同精度下的显存需求如下

精度类型显存需求(约)
FP166.5 GB
FP83.2 GB
INT41.75 GB
http://www.xdnf.cn/news/12370.html

相关文章:

  • My图床项目
  • [蓝桥杯]采油
  • 使用VTK还是OpenGL集成到qt程序里哪个好?
  • P1345 [USACO5.4] 奶牛的电信Telecowmunication
  • Levenberg-Marquardt算法详解和C++代码示例
  • 安卓基础(ProGuard vs R8)
  • NodeJS Koa 后端用户会话管理,JWT, Session,长短Token,本文一次性讲明白
  • Redis——1、服务端高并发分布式结构演进之路
  • Excel 表格内批量添加前缀与后缀的实用方法
  • keysight是德科技N9923A网络分析仪
  • 排序算法总结(C++)
  • C文件操作2
  • python打卡训练营打卡记录day46
  • 在aarch64平台编译写入传统xls格式文件开源库xlslib的步骤
  • 《影像引导下骨盆创伤手术的术前骨折复位规划:基于学习的综合流程》|文献速递-深度学习医疗AI最新文献
  • [论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG
  • 密码学基础——SM4算法
  • 飞云智能波段主图+多空短线决策副图指标,组合操盘技术图文解说
  • 网页端 js 读取发票里的二维码信息(图片和PDF格式)
  • 机器学习算法时间复杂度解析:为什么它如此重要?
  • 国内环境修改 flutter.bat 来设置 flutter 的网络环境
  • Java项目中常用的中间件及其高频问题避坑
  • 第7篇:中间件全链路监控与 SQL 性能分析实践
  • 区块链电子发票试点政策DID数据(2016-2025)
  • 绕过 Xcode?使用 Appuploader和主流工具实现 iOS 上架自动化
  • 【001】frida API分类 总览
  • Spring Boot 定时任务的使用
  • 从webrtc到janus简介
  • vue-21 (使用 Vuex 模块和异步操作构建复杂应用)
  • 单元测试与QTestLib框架使用