当前位置：首页 > news >正文

DeepSeek-Prover-V2-671B

news 2025/7/3 10:11:30

DeepSeek-Prover-V2-671B 是 DeepSeek 在 2025 年 4 月 30 日开源的新模型，以下是其详细信息：

基础信息 ：
- 参数量 ：6710 亿，是目前最大的开源可商用模型。
- 文件格式 ：采用更高效的 safetensors 文件格式，提升训练和部署效率。
- 计算精度 ：支持 BF16、FP8、F32 等多种计算精度，可根据实际需求灵活选择，实现资源的有效利用。
模型架构 ：
- 核心架构 ：基于 DeepSeek-V3 架构，采用 MoE（混合专家）模式，具有 61 层 Transformer 层，7168 维隐藏层。
- 注意力机制 ：使用多头潜注意力（MLA）架构，通过压缩键值缓存（KV Cache），降低推理过程中的内存占用和计算开销，使模型在资源受限环境下也能高效运行。
- 位置嵌入 ：最大位置嵌入达 163840，可处理超长上下文信息，在进行数学证明时能完整理解和处理复杂上下文，不会因信息过长丢失关键细节。
训练方式 ：基于 Lean 4 框架进行形式化推理训练，结合强化学习与大规模合成数据，显著提升自动化证明能力。
适用领域 ：专为数学推理和问题解决设计，能处理从基础代数到高等数学的广泛问题，擅长自动证明定理和复杂计算，其对数学符号、公式的理解能力以及逻辑推理能力远超通用大语言模型。
性能表现 ：在 Math450 测试中，单轮次通过率达到 44.5%，多轮次达到 54.4%，与 Minerva 2.0 表现相当，超越 GPT-4 Turbo。
开源及商用 ：已在 Hugging Face 开源，可免费商用，开源地址为 https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B 。