阿里通义千问 Qwen3 系列模型正式发布,该模型有哪些技术亮点?
从混合专家(MoE)架构到会思考的动态推理,再到完全开源的Apache2.0许可证,Qwen3的发布,预示着开源AI正在加速追赶。
这次阿里一口气发了8款模型,包括2款MoE模型和6款不同尺寸的密集模型。其中最大的亮点就是MoE架构的应用。简单来说,就是在模型里有配一个专家库,处理不同的任务时,让最了解任务的几位专家出来回答,这样做能降低计算成本。
以最大的Qwen3-235B-A22B为例,虽然总参数大,但实际运行时只激活了很小一部分,据说用训练一个两三百亿参数模型的资源就能跑起来。以前需要砸重金配算力才能运行的模型,现在门槛一下子低了不少,甚至有消息称只需要四块英伟达H20芯片就能部署完整版,显存占用率也降低到DeepSeek-R1的三分之一,这对开发者和中小企业来说是个好消息。