Qwen3 系列的后训练技术
阿里今日推出新一代开源大模型Qwen3系列,在代码、数学、通用能力等基准测试中达到顶级模型水平(如DeepSeek-R1、o1、Grok-3等)。
核心亮点
- 双重思考模式
思考模式
(深度推理)与非思考模式
(快速响应)自由切换 - 多语言覆盖
支持119种语言和方言 - 强化Agent能力
优化代码与环境交互功能
开源模型架构
MoE模型(混合专家)
模型名称 | 总参数 | 激活参数 | 备注 |
---|---|---|---|
Qwen3-235B-A22B | 2350亿 | 220亿 | |
Qwen3-30B-A3B | 300亿 | 30亿 | 激活参数仅为QwQ-32B的10% |
Dense模型(全参数)
模型规格 | 层数 | 上下文长度 |
---|---|---|
Qwen3-32B | 64 | 128K |
Qwen3-14B | 40 | 128K |
Qwen3-8B | 36 | 128K |
Qwen3-4B | 36 | 32K |
Qwen3-1.7B | 28 | 32K |
Qwen3-0.6B | 28 | 32K |
📌 所有模型均基于 Apache 2.0许可证 开源
获取平台:Hugging Face | ModelScope | Kaggle
技术突破
- 预训练规模
36万亿token(达Qwen2.5的近两倍) - 四阶段后训练
- 长思维链训练
- 强化学习优化
- 思维模式融合
- 通用能力强化
- 部署支持
SGLang
|vLLM
|Ollama
|LMStudio
等框架
后训练
为了开发能够同时具备思考推理和快速响应能力的混合模型,Qwen3实施了一个四阶段的训练流程。该流程包括:
- (1)长思维链冷启动
- (2)长思维链强化学习
- (3)思维模式融合
- (4)通用强化学习。
在第一阶段, Qwen3使用多样的的长思维链数据对模型进行了微调,涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域。 这一过程旨在为模型配备基本的推理能力。
第二阶段的重点是大规模强化学习, 利用基于规则的奖励来增强模型的探索和钻研能力。
在第三阶段,Qwen3在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中。确保了推理和快速响应能力的无缝结合。
最后,在第四阶段,Qwen3在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用了强化学习,以进一步增强模型的通用能力并纠正不良行为。
更详细的内容,做到Qwen3技术报告了