当前位置: 首页 > java >正文

#Paper Reading# DeepSeek-V3

论文题目: DeepSeek-V3
论文地址: https://arxiv.org/pdf/2412.19437
论文发表于: arXiv 2024年12月
论文所属单位: DeepSeek

论文大体内容
本文发布了DeepSeek-V3模型,框架遵循了V2模型[3],包括MLA和MoE。除此之外,本文融合了MTP(Multi-Token Prediction)的优化点,让模型训练更稠密。经过14.8T的token训练,得到一个671B的模型,共花费557.6万美元,取得了开源模型SOTA的效果,并与闭源模型GPT-4o效果相当。

Motivation
本文继续沿着DeepSeek经济实用同时效果非凡的路子去走,探索效果更佳更经济的开源大模型。

Contribution
①负载均衡的训练策略:开创了一种用于负载均衡的辅助无损策略,该策略可以最大限度地减少因鼓励负载均衡而引起的性能下降。
②MTP训练目标:让模型训练更稠密,并通过消融发现是对模型效果有提升。
③FP8混合精度训练框架。
④通过计算和通信的重叠,克服跨节点的MoE通信瓶颈。
⑤对DeepSeek-R1的知识蒸馏,提升效果。
⑥模型效果很强:开源模型SOTA,与闭源模型GPT-4o相当。


1. DeepSeek-V3整体框架沿用V2的,包括MLA和MoE。对于MLA和MoE的原理详见[3][4]

2. MTP(Multi-Token Prediction)模块
①训练时增加MTP模块,增加交叉熵损失到Loss里面,提升训练效果。
②推理时丢弃该模块,也就是一次还是只预测了一个token。

3. 训练框架:通过计算和通信的重叠,克服跨节点的MoE通信瓶颈。

4. FP8混合精度训练:之前常见的方式是模型训练完成后,再进行量化,但本文在训练过程中就已经使用了FP8量化精度,相对损失低于0.25%。主要应用在3个部分:前向传播,对权重求导和对输入求导。这种方式能提升计算速度一倍,并减少内存消耗。

5. 推理和部署:本文在各个阶段尝试了不同的工程优化手段去提升性能。
①预填充(Prefilling):冗余Expert部署策略,尽可能平衡GPU的负载。
②解码(Decoding):每个GPU只涉及1个Expert,提高吞吐量。

6. 本文还对GPU硬件提出了一些建议,包括计算和通信等,探讨怎样才能更合理的榨干硬件的利用率。

7. 预训练
①DeepSeek-V3模型使用了1个shared expert和256个experts。
②上下文扩展:利用YaRN方法将上下文窗口从4k扩展到32k,再扩展到128k,

8. 评估
①多选题Multi-subject multiple-choice:MMLU、C-Eval、CMMLU
②语言理解和推理Language understanding and reasoning:HellaSwag、PIQA、ARC、OpenBookQA、BigBench Hard
③闭卷问答Closed-book question answering:TriviaQA、NaturalQuestions
④阅读理解Reading comprehension:RACE、DROP、C3
⑤消歧Reference disambiguation:WinoGrande、CLUEWSC
⑥语言建模Language modeling:Pile
⑦中文Chinese understanding and culture:CHID、CCPM
⑧数学Math:GSM8K、MATH、CMATH
⑨代码Code:HumanEval、MBPP
⑩考试Standardized exams:AGIEval

9. 评测结果:671B的模型,每个token激活37B参数量。

10. MTP的消融作用:增加MTP对模型的效果有明显提升。

11. 负载均衡的无损平衡策略消融:相比原有的有损策略,无损的效果更好。

12. 后训练(Post-Training)
①SFT:本文使用了1.5M的实例去SFT。
i) 推理数据:使用DeepSeek-R1去生成。
ii) 非推理数据(例如创意写作、角色扮演和简单的问答):使用DeepSeek-V2.5生成,并进行人工评测和验证修改。
②RL
i) Rule-based的Reward Model:可以使用特定规则来验证的问题,如数学题、编程代码题等,使用Rule-based的模型。
ii) Model-based的Reward Model:具有自由格式的ground-truth答案的问题,使用Model-based模型确认是否匹配;而写作创意类的问题,模型提供反馈。
iii) 使用GRPO(Group Relative Policy Optimization)去进行RL。

13. 聊天模型评测结果

参考资料
[1] 深度求索DeepSeek背后的底层逻辑:https://zhuanlan.zhihu.com/p/29573646728
[2] 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”:https://www.bilibili.com/video/BV1xuK5eREJi/
[3] DeepSeek-V2:https://blog.csdn.net/John159151/article/details/147200272
[4] DeepSeek MoE:https://blog.csdn.net/John159151/article/details/147199203

http://www.xdnf.cn/news/1049.html

相关文章:

  • docker部署seata
  • Nebula图数据库
  • STM32H5开发陀螺仪LSM6DSV16X(1)----轮询获取陀螺仪数据
  • 【leetcode题解】滑动窗口
  • 【瑞萨RA4L1-SENSOR套件测评】LCD 显示
  • 2025年pta团队设计天梯赛题解
  • FreeRTOS互斥信号量解决优先级翻转实战教程
  • docker 中将dpo后的模型转为ollama能够调用的gguf格式
  • 通过Docker Desktop配置OpenGauss数据库的方法(详细版+图文结合)
  • 助conda命令把环境导出为一个文件,然后在 Linux 系统里利用该文件重新创建相同的环境
  • mapbox进阶,实现掩膜效果,并控制掩膜透明度
  • 数组的应用
  • Linux[基本指令]
  • Ubuntu20.04安装Pangolin遇到的几种报错的解决方案
  • 【项目中的流程管理(九)】
  • 关于 LangChain Execution Language (LCEL) 的详细解释,涵盖其核心概念、语法、应用场景及示例
  • C++ GPU并行计算开发实战:利用CUDA/OpenCL加速粒子系统与流体模拟
  • 探究CF1009(div3)C题——XOR and Triangle
  • 宝塔面板引发的血案:onlyoffice协作空间无法正常安装的案例分享
  • 深入了解 WebGIS 系统:构建地理空间信息的网络桥梁
  • C语言高频面试题——strcpy与memcpy区别
  • mcp server、client和本地大模型集成调用
  • Argo CD
  • C语言高频面试题——常量指针与指针常量区别
  • 智慧能源安全新纪元:当能源监测遇上视频联网的无限可能
  • 消息队列知识点详解
  • 做虚拟化应该怎么选择美国服务器?
  • 利用人工智能(AI)增强IT运营,提高IT管理效率
  • Redis 事务
  • Linux基础学习--linux的文件权限与目录配置