当前位置: 首页 > backend >正文

deepseek系列论文汇总(时至2025.5)

deepseek系列论文汇总(时至2025.5)

  • deepseek系列
      • 一、基础架构与训练优化
      • 二、推理能力与强化学习
      • 三、前沿探索与技术创新
      • 四、其他
      • 研究价值与应用

deepseek系列

详细论文笔记查看:deepseek系列论文笔记
以下是截至2025年4月的DeepSeek系列核心论文汇总,涵盖架构创新、训练优化及推理能力突破等方向,按发布时间排序:

一、基础架构与训练优化

  1. DeepSeek LLM
    • 标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
    • 时间:2024年1月
    • 链接:arXiv:2401.02954
    • 突破:首次提出分组查询注意力(GQA)降低推理成本,并优化多步学习率调度器提升训练效率,奠定了后续模型的高效训练基础。

  2. DeepSeekMoE
    • 标题:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
    • 时间:2024年1月
    • 链接:arXiv:2401.06066
    • 突破:通过细粒度专家分割与共享专家隔离策略,实现MoE架构的灵活性与性能平衡,计算成本不变下模型性能提升30%。

  3. DeepSeek Math
    • 标题:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
    • 时间:2024年2月
    • 链接:arXiv:2402.03300
    • 突破: 高效强化学习算法:提出组相对策略优化(GRPO),作为 PPO 的变体,通过群组奖励归一化和迭代训练机制,减少对价值网络的依赖,显著降低训练资源消耗,同时提升数学推理能力。

  4. DeepSeek-V2
    • 标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
    • 时间:2024年5月
    • 链接:arXiv:2405.04434
    • 突破:引入多头潜在注意力(MLA)机制,减少推理时KV缓存需求,使推理速度提升40%,训练成本降低50%。最后,我们遵循 DeepSeekMath (Shao et al., 2024) 采用组相对策略优化 (GRPO) 来进一步使模型与人类偏好保持一致,并产生 DeepSeek-V2 Chat (RL)。

    • 为了促进 MLA 和 DeepSeekMoE 的进一步研究和开发,我们还为开源社区发布了 DeepSeek-V2-Lite,这是一个配备 MLA 和 DeepSeekMoE 的较小模型。它总共有 15.7B 个参数,其中每个 token 激活了 2.4B。
  5. DeepSeek-V3
    • 标题:DeepSeek-V3 Technical Report
    • 时间:2024年12月
    [2024年12月27日提交(v1),最后修订于2025年2月18日(此版本,v2)]
    • 链接:arXiv:2412.19437
    • 突破:总参数量达671B,激活参数仅37B/Token,采用无辅助损失负载均衡策略,支持FP8混合精度训练,降低60%显存占用。


二、推理能力与强化学习

  1. DeepSeek-R1
    • 标题:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
    • 时间:2025年1月
    • 链接:arXiv:2501.12948
    • 突破:基于DeepSeek-V3-Base,通过多阶段强化学习训练(RL)显著提升逻辑推理能力,支持思维链(CoT)和过程透明化输出。

  2. DeepSeek-R1 蒸馏模型
    • 标题:Distilling Reasoning Capabilities from DeepSeek-R1 to Smaller Models
    • 时间:2025年1月
    • 链接:GitHub项目页
    • 突破:将R1的推理能力迁移至Qwen、Llama等轻量模型,使小型模型在GSM8K等数学推理基准上准确率提升25%。


DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,在初步步骤中没有使用监督微调(SFT),它展示了出色的推理能力。通过强化学习,DeepSeek-R1-Zero自然地展现出许多强大且有趣的推理行为。然而,它也遇到了一些挑战,如可读性差和语言混用问题。
为了解决这些问题并进一步提升推理性能,我们引入了DeepSeek-R1,该模型在强化学习之前结合了多阶段训练和冷启动数据。
DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为了支持研究社区,我们开源了DeepSeek-R1-Zero、DeepSeek-R1以及从DeepSeek-R1基于Qwen和Llama蒸馏出的六个密集模型(分别为15亿、70亿、80亿、140亿、320亿和700亿参数)。
在这里插入图片描述

二、推理优化版本

  1. DeepSeek-R1(671B满血版)

    • 核心能力:通过强化学习优化,专攻复杂推理(如数学计算、代码生成)。
    • 训练流程:基于V3基座模型,分阶段融合冷启动数据与多领域微调。
  2. R1-Zero

    • 定位:R1训练中间产物,纯强化学习驱动,无人工调节。
    • 用途:生成冷启动思维链数据,用于后续模型优化。
  3. R1蒸馏版

    • 分类:包括Qwen-1.5B/7B/32B、Llama-8B/70B等不同参数规模的轻量化版本。
    • 优势:推理速度提升3-5倍,硬件成本降低90%。

三、前沿探索与技术创新

DeepSeek-V3
• 标题:DeepSeek-V3 Technical Report
• 时间:2024年12月
• 链接:arXiv:2412.19437
• 突破:总参数量达671B,激活参数仅37B/Token,采用无辅助损失负载均衡策略,支持FP8混合精度训练,降低60%显存占用。


四、其他

https://cloud.tencent.com/developer/article/2505000
在这里插入图片描述

研究价值与应用

学术工具化:部分成果已转化为论文辅助工具,如参考文献自动生成(支持GB/T 7714等格式)、选题建议与文献分析功能。
开源生态:DeepSeek-R1系列模型及代码已在GitHub开源,推动学术界在推理优化领域的协同创新。

如需获取完整论文列表或特定领域研究细节,可访问DeepSeek官方GitHub或arXiv平台检索标题关键词。

参考:
https://blog.csdn.net/weixin_44986037/category_12971052.html?spm=1001.2014.3001.5482
https://blog.csdn.net/youcans/article/details/145391398
https://cloud.tencent.com/developer/article/2505000

http://www.xdnf.cn/news/7167.html

相关文章:

  • 2023 睿抗机器人开发者大赛CAIP-编程技能赛-高职组(省赛)解题报告 | 珂学家
  • AGI大模型(24):通过LangChain的接口来调用OpenAI对话
  • 【AWS入门】Amazon Bedrock简介
  • Compose笔记(二十四)--Canvas
  • 项目:在线音乐播放服务器——基于SSM框架和mybatis
  • redis持久化和数据淘汰方案
  • NB-IoT技术深度解析:部署模式与节能机制全指南
  • SONiC系统之高速数据遥测High Frequency Telemetry
  • Java中的伪共享(False Sharing):隐藏的性能杀手与高并发优化实战
  • Python训练营---Day29
  • 劳特巴赫trace32自定义调试界面
  • mysql的高可用
  • 基于MCP的AI Agent应用开发实践
  • 类的加载过程详解
  • 如何本地部署Qwen3系列的大小模型235B/32B并进行推理服务及并发测试?
  • 力扣1991:找到数组的中间位置(前缀和)
  • 三、关系数据库
  • leetcode报错原因总结需要背下来的程序片 [更新中]
  • MinIO:从入门到精通,解锁云原生存储的奥秘
  • 程序代码篇---python向http界面发送数据
  • Ubuntu搭建TFTP服务器的方法
  • OpenCL C++图像纹理处理
  • jvm安全点(四)openjdk17 c++源码垃圾回收之安全点轮询页内存设置不可访问
  • 前端图片上传组件实战:从动态销毁Input到全屏预览的全功能实现
  • 备份C#的两个类
  • 【DAY22】 复习日
  • 三、高级攻击工具与框架
  • React Flow 边的基础知识与示例:从基本属性到代码实例详解
  • 飞机飞行控制系统补偿模型辨识报告
  • HarmonyOS AVPlayer 音频播放器