当前位置：首页 > backend >正文

DeepSeek最新大模型发布-DeepSeek-Prover-V2-671B

backend 2025/7/4 6:50:16

2025 年 4 月 30 日，DeepSeek 开源了新模型 DeepSeek-Prover-V2-671B，该模型聚焦数学定理证明任务，基于混合专家架构，使用 Lean 4 框架进行形式化推理训练，参数规模达 6710 亿，结合强化学习与大规模合成数据，显著提升了自动化证明能力，且已在 Hugging Face 上线，支持本地部署与商业用途。

此外，据 4 月 27 日晚消息，DeepSeek 即将发布的下一代 AI 大模型 DeepSeek-R2 也有诸多看点。以下是对 R2 模型的爆料信息及 DeepSeek 近期的其他相关消息：

DeepSeek-R2 模型

参数规模与架构：采用混合专家模型结合更智能的门控网络层，总参数量预计达 1.2 万亿，较 R1 提升约 1 倍，与 ChatGPT 的 GPT-4 Turbo 以及谷歌的 Gemini 2.0 Pro 相当。
技术突破 ：
- 架构创新：采用自主研制的 Hybrid MoE 3.0 架构，实现 1.2 万亿动态激活参数，实际计算消耗仅 780 亿参数，经阿里云实测验证，在处理长文本推理任务时，单位 token 成本较 GPT-4 Turbo 下降 97.3%。
- 性能提升：在数学定理证明上有质的飞跃，其单轮推理能力媲美谷歌 Gemini Pro 2.0，预计在官方 benchmark 上超越 Gemini 2.0 12% 左右，接近 GPT-4 Turbo 的能力。
- 多模态能力增强：据称多模态性能媲美国际竞品，有望在图像、音频、视频等多模态内容的理解和生成上取得突破，弥补 DeepSeek 此前的短板。
发布时间：据预测，DeepSeek-R2 发布时间可能在 2025 年 5 月 1 日 - 5 月 5 日之间，也可能是 4 月 30 日已发布。

其他相关消息

DeepSeek R1 的应用与评价：百度创始人李彦宏在 2025 年 5 月的 Create2025AI 开发者大会上分享了 DeepSeek 模型在百度生态系统内的实际应用进展，如文小言、搜索、地图等核心应用均已接入其完全版模型，在智能客服、搜索功能增强方面效率提升显著。但同时也指出 DeepSeek 存在的限制，如只能处理文本，无法支持多模态内容，幻觉率较高，且速度较慢、成本较高等。
行业竞争动态 ：4 月 29 日阿里巴巴发布了新一代开源大模型系列 Qwen3，其性能优于 DeepSeek-R1，且部署门槛大幅降低。阿里称 Qwen3 的旗舰模型采用混合专家架构，从 36T 数据量上训练而来，总参数量为 235B，激活参数量为 22B，而 DeepSeek-V3 在 14.8T 数据量上训练，总参数量为 671B，激活参数量为 37B。在部署成本上，671B 参数的 DeepSeek-R1 模型至少需要 8 张英伟达 H20 芯片，流畅运行则需 16 张，而 Qwen3 仅需 4 张 H20 即可流畅部署。

查看全文

http://www.xdnf.cn/news/3243.html