阿里巴巴 Qwen 系列大模型发展时间线与主要特性
引言:通义千问的开源之路
Qwen(通义千问)是阿里巴巴达摩院研发的大语言模型系列。其命名源自中文“通义千问”,寓意着致力于通过技术回答人类的各种问题。从诞生之初,Qwen 就确立了拥抱开源社区、提供高性能、全尺寸模型家族的战略,并持续在多语言、多模态和前沿推理范式上进行探索和引领。
第一阶段:奠定基础与多模态探索 (2023年)
1. 2023年8月3日:Qwen-7B——千问系列的首次亮相
- 发布模型: Qwen-7B (基础模型), Qwen-7B-Chat (对话模型)。
- 主要特性:
- 参数规模: 70亿参数。
- 训练数据: 基于超过 2.2 万亿 Tokens 的高质量、大规模数据进行预训练,涵盖中、英等多语言。
- 上下文长度: 支持 8K 的上下文长度。
- 开源协议: 开源基于 Apache 2.0 协议,但对于月活跃用户超过1亿的服务,需向阿里获取授权。
- 核心意义: 这是阿里巴巴首次向全社会开源其大语言模型,标志着其正式加入全球大模型开源生态的竞争,并为社区提供了一个强大的7B尺寸模型选项。
- 参考来源: Qwen-7B: An Open-sourced 7-Billion-Parameter LLM
2. 2023年9月25日:Qwen-14B & Qwen-72B——模型家族的扩展
- 发布模型: Qwen-14B, Qwen-72B 及其对应的 Chat 版本。
- 主要特性:
- 更大规模: 推出了140亿和720亿两个更大参数规模的模型。
- 更强性能: 在 MMLU、C-Eval 等一系列基准测试中,性能全面超越同尺寸的开源模型(如 Llama2),Qwen-72B 的性能甚至逼近当时的闭源顶尖模型 GPT-3.5。
- 更长上下文: Qwen-72B 支持高达 32K 的上下文长度。
- 核心意义: 迅速形成了从 7B 到 72B 的完整模型尺寸梯度,满足了从学术研究到商业应用的不同需求。Qwen-72B 的发布使 Qwen 系列在高性能开源模型领域占据了领先地位。
- 参考来源: Qwen-14B and Qwen-72B: Two More Open-Sourced Members of Qwen LLM Series
3. 2023年11月30日:Qwen-VL——迈向多模态视觉理解
- 发布模型: Qwen-VL (视觉语言模型), Qwen-VL-Chat (对话式视觉语言模型)。
- 主要特性: 基于 Qwen-7B 扩展,支持图像、文本、边界框(bounding box)作为输入,支持 448x448 的高分辨率图像,并对中文光学字符识别(OCR)进行了优化。
- 核心意义: 这是 Qwen 系列从纯文本模型向多模态领域扩展的关键一步,也是开源社区中首批具备强大中文视觉理解能力的多模态模型之一,为看图说话、视觉定位等应用提供了强大方案。
- 参考来源: Qwen-VL: A Versatile Vision-Language Model for Understanding and Interacting with the Visual World
4. 2023年12月1日:Qwen-Audio——探索音频理解新维度
- 发布模型: Qwen-Audio, Qwen-Audio-Chat。
- 主要特性: 能够处理多种类型的音频输入(人类语音、自然声音、音乐等),支持超过30种音频任务。它并非语音识别(ASR)模型,而是理解音频内容的模型。
- 核心意义: 业界首个开源的大规模音频语言模型,在视觉之后,Qwen 迅速将能力拓展到音频领域,进一步巩固了其在多模态大模型领域的领先地位。
- 参考来源: Qwen-Audio: An Open-Sourced Large Audio Language Model
第二阶段:全面升级与生态融合 (2024年 - 2025年初)
5. 2024年2月5日:Qwen1.5——架构统一与全面开源
- 发布模型: Qwen1.5 系列,包括 0.5B, 1.8B, 4B, 7B, 14B, 72B 多个尺寸。
- 主要特性: 架构与 Llama 等主流模型对齐,提升了生态兼容性。所有模型均采用 Apache 2.0 协议,取消了原有的商业使用限制。所有模型均支持 32K 上下文长度。
- 核心意义: 里程碑式的升级。Qwen1.5 通过更加开放、易用和强大的重构,赢得了社区的广泛赞誉,极大地推动了其在全球开发者社区中的普及。
- 参考来源: Qwen1.5: A Family of Strong & Open LLMs
6. 2024年6月6日:Qwen2——新一代模型的性能飞跃
- 发布模型: Qwen2 系列,首批发布 0.5B, 1.5B, 7B, 57B (MoE), 72B 五个尺寸。
- 主要特性:
- 性能新高: 在几乎所有基准测试中,Qwen2 系列都显著优于 Qwen1.5,并在同尺寸模型中全面超越 Llama3,成为开源模型的新 SOTA。
- 超长上下文: 上下文长度支持能力大幅提升,部分模型支持高达 128K Tokens 的上下文。
- 更强的多语言能力: 在预训练数据中增加了27种语言。
- 核心意义: Qwen2 的发布标志着 Qwen 系列的又一次重大飞跃,在与全球顶级开源模型的竞争中处于领先地位,并在超长上下文和多语言能力上树立了新的行业标杆。
- 参考来源: Qwen2: The New Generation of Qwen Open-Source Models
7. 2024年9月19日:Qwen2.5——知识、代码与数学的盛宴
- 发布模型: Qwen2.5 系列 (0.5B 至 72B),以及专门的 Qwen2.5-Coder、Qwen2.5-Math 模型。
- 主要特性: 相比 Qwen2,在知识量、代码和数学能力上实现了巨大提升。首次推出了针对特定领域优化的专业模型。继续支持128K上下文,并增强了长文本生成和结构化数据处理能力。
- 核心意义: Qwen 从通用模型发展为“通用+专精”的强大矩阵,满足了更细分的市场需求,并在与全球最顶级开源模型(如 Llama 3.1)的竞争中保持在第一梯队。
- 参考来源: Qwen2.5: A Party of Foundation Models!
8. 2025年1月28日:Qwen2.5-VL与Qwen2.5-Max——多模态革命与性能巅峰
- 发布模型: Qwen2.5-VL 系列 (多模态) 和 Qwen2.5-Max (大规模 MoE 闭源模型)。
- 主要特性:
- Qwen2.5-VL: 实现了重大飞跃,不仅能识别图像,还能作为“视觉代理”操作电脑和手机,并具备强大的文档和长视频理解能力。
- Qwen2.5-Max: 基于超20万亿 token 训练的混合专家(MoE)架构旗舰模型,性能对标世界顶级闭源模型,通过阿里云 API 提供服务。
- 核心意义: Qwen2.5-VL 将多模态交互从“看懂”提升到“操作”的维度。Qwen2.5-Max 则展示了阿里在训练超大模型上的技术实力,并与开源模型互补,构成商业化服务的高端产品线。
- 参考来源: Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! 和 Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model
第三阶段:迈向 AGI 的创新范式 (2025年至今)
9. 2025年4月29日:Qwen3——集成“思考模式”的革命性模型
- 发布模型: Qwen3 系列,包含 0.6B 至 32B 的 Dense 模型,以及 30B 和 235B 的 MoE 模型。
- 主要特性:
- 混合推理模式: 核心创新是引入可控的“思考模式”(Thinking Mode)。模型既可以快速响应,也可以通过更深的推理步骤解决复杂问题。
- 极致效率与性能: 性能大幅提升,例如 Qwen3-4B 的表现可匹敌上一代的 Qwen2.5-72B。
- 更广泛的多语言支持: 训练数据覆盖119种语言和方言。
- 全面开源: 再次延续 Apache 2.0 的彻底开源精神。
- 核心意义: “混合推理”是 LLM 架构的一大创新,是迈向更强通用人工智能(AGI)的重要一步。Qwen3 凭借其创新架构、卓越性能和更低的部署成本,为全球开源社区树立了新的标杆。
- 参考来源: Qwen3: Think Deeper, Act Faster