深度思考Qwen3
每隔几个月就会在AI领域见证一个令人印象深刻的新型LLM。阿里巴巴已经开源Qwen3-235B-A22B。Qwen3-235B最突出的地方在于其独特的智能策略:混合架构,即专家混合系统(Mixture-of-Experts,MoE)。在任何给定时刻,实际上只有不到22B参数被利用。
这种所谓的"混合思考"模式,即在两种不同模式——"思考"和"非思考"之间切换,在"思考"模式下,Qwen3-235B能够逐步高效地分解复杂任务,非常适合数学、编程或深度分析。而在"非思考"模式下,它能闪电般快速响应,理想用于社交互动和较轻松的问题。
最关键的是阿里巴巴决定在开源Apache 2.0许可证下发布Qwen3-235B(开放权重)引起了对现状的强烈冲击,与谷歌的Gemini-2.5-Pro和OpenAI的O3等竞争对手形成鲜明对比,后两者仍然严格保持专有性。初步的反应从热情支持到谨慎乐观不等,混合着对Qwen3-235B在特别利基或复杂环境中实际表现的怀疑。
这就引出了一个问题:阿里巴巴的Qwen3-235B是否真的有可能改变AI生态系统,还是仅仅是另一个将在炒作满天但最终只是渐进式创新的海洋中消亡的参与者?
在这里我们将Qwen3-235B与谷歌的Gemini-2.5-Pro、OpenAI的O3和DeepSeek R1等重量级选手进行比较。
思考快与慢
Qwen3拥有惊人的235B参数总量——规模堪比当今地球上一些最强大的AI模型。MoE设计下面,Qwen3每次推理只使用约22B参数——仅总数的约10%。这种选择性激活至关重要:它使模型能够生成丰富、详细和有见地的答案,而不会消耗巨大的计算资源。但真正使Qwen3-235B与众不同的是其新颖的混合"思考"方法,即阿里巴巴戏称为"思考"和"非思考"模式。通过一个简单的提示(如添加/think或/no_think标记),用户可以动态切换模式。
在思考模式下,Qwen3进行逐步、有条理的思考,非常适合微妙、复杂的问题,如编码挑战、包含详细说明的数学证明,或对复杂情况的深思熟虑。在非思考模式下,模型倾向于即时、简化的响应——对实时对话、不太复杂的查询或偏好速度而非详细阐述的休闲聊天非常有利。
这种双重能力有效地让用户掌控阿里巴巴巧妙称之为"思考预算"的东西,一种新颖的、用户定义的深度、速度和计算成本平衡。这种双模式能力的存在彰显了阿里巴巴对日常需求的深刻理解:并非所有查询都需要繁重的智力体操。有时速度至上;在其他时候,清晰度和严谨性是优先事项。
Qwen3-235B打破语言障碍,将支持扩展到惊人的119种语言和方言。这种广泛的多语言覆盖范围不仅包括英语、普通话、法语和西班牙语等全球主要语言,还扩展到在AI研究中不太常被优先考虑的语言,如古吉拉特语、旁遮普语、马拉地语、信德语和孟加拉语等。
为了适应复杂查询和长对话,Qwen3-235B原生处理32,000个标记的巨大上下文窗口,使长对话或详细文档分解变得容易实现。然而,对于需要真正大规模回忆的应用——例如多章节书籍摘要、复杂法律简报或广泛的编程脚本——这个窗口通过基于RoPE(旋转位置嵌入)的自定义扩展技术(非正式称为YaRN)扩展到131,072个标记。
尽管有这些显著优势,但是它在极其复杂的编码任务上性能不稳定。
对比思考
那么它与Gemini-2.5-Pro(或-Flash)、OpenAI的O3和DeepSeek R1等行业领导者对标的时候,Qwen3-235B表现如何?
随着谷歌的Gemini-2.5-Pro和OpenAI的O3在各种基准测试中表现出色,加上"较老"的竞争者如DeepSeek R1仍然强劲,阿里巴巴的Qwen3-235B面临着艰难的挑战。但它在这些科技巨头和新兴强者中的确切位置在哪里?
1) 阿里巴巴 vs. 谷歌: Qwen3-235B vs. Gemini-2.5-Pro
与谷歌的Gemini-2.5-Pro的直接对比中,Qwen3-235B展示了能力的有趣转变。在比较推理能力时,独立基准测试结果非常接近。在ArenaHard推理测试中,Gemini以高达96.4%的得分略胜一筹,而Qwen3紧随其后,达到95.6%。
然而,当比较竞争性编程性能时,在Codeforces Elo环境中,阿里巴巴的Qwen3-235B明显超过了Gemini。Qwen3取得了2056的杰出分数,这是一个非凡的基准,使其在AI驱动的编码竞赛中处于领先地位。
尽管如此,Gemini-2.5-Pro仍有独特优势——特别是多模态输入能力(基于图像的理解)和巨大的100万令牌上下文窗口。这种扩展能力使谷歌的产品在多媒体密集型环境、大型文档处理或深入的网络应用等通用现实世界用例中可能更加多功能——而在这些领域,尽管Qwen3-235B拥有相当大的上下文(最多131K令牌),但仍然落后。
2) 阿里巴巴 vs. 谷歌, Qwen3-235B vs. Gemini-2.5-Flash
Gemini 2.5 Flash和Qwen3-235B都使用"混合思考"方法来分配速度和推理能力。Qwen3-235B每个令牌激活22B参数,内置原生32K令牌上下文窗口——使用YaRN技术可扩展至131K。
Gemini-2.5-Flash拥有实际的多模态架构、100万令牌上下文窗口和64K令牌输出限制,使其特别适合长文档和多媒体任务。
-
整体推理(ArenaHard)方面Qwen3-235B为95.6%,而Gemini 2.5 Flash为96.4%。
-
数学(AIME '24/'25)方面Qwen3-235B:85.7% / 81.4%,而Gemin-2.5-Flash:在单次尝试测试中为88.0% / 78.0%。
-
代码生成(LiveCodeBench)方面Qwen3-235B:70.7%,而Gemini 2.5 Flash:63.5%
简而言之,Qwen3-235B保持其顶级编码基准测试和竞争性编程优势,同时Gemini-2.5-Flash利用其1M上下文窗口和多模态能力——加上极其可调的思考预算——在大规模、混合媒体和延迟关键应用中占据优势。
3)阿里巴巴 vs. OpenAI:Qwen3能否匹配O3的数学能力?
O3以其数学卓越而闻名,在代数和逻辑推理基准测试中占据主导地位。在备受推崇的AIME'24数学测试中,O3以卓越的96.7%准确率傲视群雄,使Qwen3-235B明显落后(85.7%)。这一显著差距凸显了O3在数学密集型任务中的明显优势,表明尽管Qwen3很有能力,但仍然缺乏直接挑战OpenAI专业能力所需的数学敏锐度。
当将阿里巴巴的模型与OpenAI较小的产品(特别是O3-mini变体)进行比较时,Qwen3-235B展示了真正的竞争力,在多个推理和编程基准测试中超越或匹配OpenAI的中级模型。因此阿里巴巴的旗舰产品可能不会彻底超越O3,但明确地宣称自己是许多实际应用的可信替代品,有效平衡了成本、效率和整体性能。
4)阿里巴巴 vs. DeepSeek R1
与DeepSeek R1——另一个有进取心的开源竞争对手——的较量中,Qwen3-235B真正展示了其实力。即使DeepSeek R1拥有更多的活跃参数数量(37B活跃参数,相比Qwen3的简约22B),阿里巴巴的参赛作品在编码和竞争性编程测试中表现非常出色。再一次,Qwen3的Codeforces Elo评分2056领先群伍,超过了DeepSeek的最佳尝试。
Qwen3和DeepSeek R1都是开源模型,因此可以在开发者社区中进行直接比较。Qwen3不仅以编码专业知识取胜,还提供更多多语言支持(支持119种语言)。
总结
Qwen3-235B是独特的:一个强大且能干的编码者,在原始推理能力方面具有竞争力但尚未无与伦比,但由于其效率和开放性(开放权重),对广泛的开发者实施来说更加有用。简而言之,阿里巴巴的新模型开辟强大的编码竞争者,在整体推理中是一个不错的中等挑战者,对全球开发者来说是一个有趣的实用选择。然而,存在重要的局限性,特别是在专业或数学密集型推理方面,这里仍有成长和发展的空间。