当前位置: 首页 > backend >正文

Qwen3 系列的后训练技术

阿里今日推出新一代开源大模型Qwen3系列,在代码、数学、通用能力等基准测试中达到顶级模型水平(如DeepSeek-R1、o1、Grok-3等)。

核心亮点

  • 双重思考模式
    思考模式(深度推理)与非思考模式(快速响应)自由切换
  • 多语言覆盖
    支持119种语言和方言
  • 强化Agent能力
    优化代码与环境交互功能

开源模型架构

MoE模型(混合专家)

模型名称总参数激活参数备注
Qwen3-235B-A22B2350亿220亿
Qwen3-30B-A3B300亿30亿激活参数仅为QwQ-32B的10%

Dense模型(全参数)

模型规格层数上下文长度
Qwen3-32B64128K
Qwen3-14B40128K
Qwen3-8B36128K
Qwen3-4B3632K
Qwen3-1.7B2832K
Qwen3-0.6B2832K

📌 所有模型均基于 Apache 2.0许可证 开源
获取平台:Hugging Face | ModelScope | Kaggle

技术突破

  • 预训练规模
    36万亿token(达Qwen2.5的近两倍)
  • 四阶段后训练
    1. 长思维链训练
    2. 强化学习优化
    3. 思维模式融合
    4. 通用能力强化
  • 部署支持
    SGLang | vLLM | Ollama | LMStudio 等框架

后训练

为了开发能够同时具备思考推理和快速响应能力的混合模型,Qwen3实施了一个四阶段的训练流程。该流程包括:

  • (1)长思维链冷启动
  • (2)长思维链强化学习
  • (3)思维模式融合
  • (4)通用强化学习。

在第一阶段, Qwen3使用多样的的长思维链数据对模型进行了微调,涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域。 这一过程旨在为模型配备基本的推理能力。

第二阶段的重点是大规模强化学习, 利用基于规则的奖励来增强模型的探索和钻研能力。

在第三阶段,Qwen3在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中。确保了推理和快速响应能力的无缝结合。

最后,在第四阶段,Qwen3在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用了强化学习,以进一步增强模型的通用能力并纠正不良行为。

更详细的内容,做到Qwen3技术报告了

http://www.xdnf.cn/news/3098.html

相关文章:

  • 无人机航拍羊只检测数据集VOC+YOLO格式6065张1类别
  • Spring计时器StopWatch 统计各个方法执行时间和占比
  • ModbusRTU转PROFIBUS网关通讯
  • 30天通过软考高项-第七天
  • 如何计算数码显微镜的放大倍率
  • Kubernetes集群使用Harbor容器镜像仓库
  • 【数据治理】数据生命周期
  • ESP32- 开发笔记- 软件开发 4 - GPIO 口
  • 通过漂移-扩散仿真研究钙钛矿-硅叠层太阳能电池中的电流匹配和滞后行为
  • 【Web】如何解决 `npm run dev` 报错 `address already in use 127.0.0.1:9005` 的问题
  • WHAT - 前端开发滚动条场景解析
  • scratch代码——游戏开发 【弹簧与反弹】
  • Java-jwt4.4.0版本使用
  • 特殊权限管理
  • Linux命令使用记录(自用)
  • LS-Linux-004 误删 Python 和 yum、dnf 后的恢复步骤
  • neurips2025_latex
  • Python3(16) 函数
  • 安卓基础(无障碍点击)
  • 通用人工智能(AGI)的技术演进
  • 新人销售如何找精准客户?
  • 语言特性的发展与应用:从基础到前沿的全面解析
  • 25年第八本【活着】
  • 基于STM32、HAL库的DS28E25安全验证及加密芯片驱动程序设计
  • 一些常用的深度学习可视化平台:TensorBoard、Weights Biases (wandb)、VisualDL
  • C++ 原子操作的内存序(memory ordering)
  • ptpx常用操作
  • 企业选择IT技术人员外包能解决哪些问题
  • 【Axure高保真原型】动态地图路线
  • 三维引擎HOOPS SDK适配Linux ARM64,对国产工业软件意味着什么?