当前位置: 首页 > ds >正文

阿里巴巴 Qwen 系列大模型发展时间线与主要特性

引言:通义千问的开源之路

Qwen(通义千问)是阿里巴巴达摩院研发的大语言模型系列。其命名源自中文“通义千问”,寓意着致力于通过技术回答人类的各种问题。从诞生之初,Qwen 就确立了拥抱开源社区、提供高性能、全尺寸模型家族的战略,并持续在多语言、多模态和前沿推理范式上进行探索和引领。


第一阶段:奠定基础与多模态探索 (2023年)

1. 2023年8月3日:Qwen-7B——千问系列的首次亮相

  • 发布模型: Qwen-7B (基础模型), Qwen-7B-Chat (对话模型)。
  • 主要特性:
    • 参数规模: 70亿参数。
    • 训练数据: 基于超过 2.2 万亿 Tokens 的高质量、大规模数据进行预训练,涵盖中、英等多语言。
    • 上下文长度: 支持 8K 的上下文长度。
    • 开源协议: 开源基于 Apache 2.0 协议,但对于月活跃用户超过1亿的服务,需向阿里获取授权。
  • 核心意义: 这是阿里巴巴首次向全社会开源其大语言模型,标志着其正式加入全球大模型开源生态的竞争,并为社区提供了一个强大的7B尺寸模型选项。
  • 参考来源: Qwen-7B: An Open-sourced 7-Billion-Parameter LLM

2. 2023年9月25日:Qwen-14B & Qwen-72B——模型家族的扩展

  • 发布模型: Qwen-14B, Qwen-72B 及其对应的 Chat 版本。
  • 主要特性:
    • 更大规模: 推出了140亿和720亿两个更大参数规模的模型。
    • 更强性能: 在 MMLU、C-Eval 等一系列基准测试中,性能全面超越同尺寸的开源模型(如 Llama2),Qwen-72B 的性能甚至逼近当时的闭源顶尖模型 GPT-3.5。
    • 更长上下文: Qwen-72B 支持高达 32K 的上下文长度。
  • 核心意义: 迅速形成了从 7B 到 72B 的完整模型尺寸梯度,满足了从学术研究到商业应用的不同需求。Qwen-72B 的发布使 Qwen 系列在高性能开源模型领域占据了领先地位。
  • 参考来源: Qwen-14B and Qwen-72B: Two More Open-Sourced Members of Qwen LLM Series

3. 2023年11月30日:Qwen-VL——迈向多模态视觉理解

  • 发布模型: Qwen-VL (视觉语言模型), Qwen-VL-Chat (对话式视觉语言模型)。
  • 主要特性: 基于 Qwen-7B 扩展,支持图像、文本、边界框(bounding box)作为输入,支持 448x448 的高分辨率图像,并对中文光学字符识别(OCR)进行了优化。
  • 核心意义: 这是 Qwen 系列从纯文本模型向多模态领域扩展的关键一步,也是开源社区中首批具备强大中文视觉理解能力的多模态模型之一,为看图说话、视觉定位等应用提供了强大方案。
  • 参考来源: Qwen-VL: A Versatile Vision-Language Model for Understanding and Interacting with the Visual World

4. 2023年12月1日:Qwen-Audio——探索音频理解新维度

  • 发布模型: Qwen-Audio, Qwen-Audio-Chat。
  • 主要特性: 能够处理多种类型的音频输入(人类语音、自然声音、音乐等),支持超过30种音频任务。它并非语音识别(ASR)模型,而是理解音频内容的模型。
  • 核心意义: 业界首个开源的大规模音频语言模型,在视觉之后,Qwen 迅速将能力拓展到音频领域,进一步巩固了其在多模态大模型领域的领先地位。
  • 参考来源: Qwen-Audio: An Open-Sourced Large Audio Language Model

第二阶段:全面升级与生态融合 (2024年 - 2025年初)

5. 2024年2月5日:Qwen1.5——架构统一与全面开源

  • 发布模型: Qwen1.5 系列,包括 0.5B, 1.8B, 4B, 7B, 14B, 72B 多个尺寸。
  • 主要特性: 架构与 Llama 等主流模型对齐,提升了生态兼容性。所有模型均采用 Apache 2.0 协议,取消了原有的商业使用限制。所有模型均支持 32K 上下文长度。
  • 核心意义: 里程碑式的升级。Qwen1.5 通过更加开放、易用和强大的重构,赢得了社区的广泛赞誉,极大地推动了其在全球开发者社区中的普及。
  • 参考来源: Qwen1.5: A Family of Strong & Open LLMs

6. 2024年6月6日:Qwen2——新一代模型的性能飞跃

  • 发布模型: Qwen2 系列,首批发布 0.5B, 1.5B, 7B, 57B (MoE), 72B 五个尺寸。
  • 主要特性:
    • 性能新高: 在几乎所有基准测试中,Qwen2 系列都显著优于 Qwen1.5,并在同尺寸模型中全面超越 Llama3,成为开源模型的新 SOTA。
    • 超长上下文: 上下文长度支持能力大幅提升,部分模型支持高达 128K Tokens 的上下文。
    • 更强的多语言能力: 在预训练数据中增加了27种语言。
  • 核心意义: Qwen2 的发布标志着 Qwen 系列的又一次重大飞跃,在与全球顶级开源模型的竞争中处于领先地位,并在超长上下文和多语言能力上树立了新的行业标杆。
  • 参考来源: Qwen2: The New Generation of Qwen Open-Source Models

7. 2024年9月19日:Qwen2.5——知识、代码与数学的盛宴

  • 发布模型: Qwen2.5 系列 (0.5B 至 72B),以及专门的 Qwen2.5-Coder、Qwen2.5-Math 模型。
  • 主要特性: 相比 Qwen2,在知识量、代码和数学能力上实现了巨大提升。首次推出了针对特定领域优化的专业模型。继续支持128K上下文,并增强了长文本生成和结构化数据处理能力。
  • 核心意义: Qwen 从通用模型发展为“通用+专精”的强大矩阵,满足了更细分的市场需求,并在与全球最顶级开源模型(如 Llama 3.1)的竞争中保持在第一梯队。
  • 参考来源: Qwen2.5: A Party of Foundation Models!

8. 2025年1月28日:Qwen2.5-VL与Qwen2.5-Max——多模态革命与性能巅峰

  • 发布模型: Qwen2.5-VL 系列 (多模态) 和 Qwen2.5-Max (大规模 MoE 闭源模型)。
  • 主要特性:
    • Qwen2.5-VL: 实现了重大飞跃,不仅能识别图像,还能作为“视觉代理”操作电脑和手机,并具备强大的文档和长视频理解能力。
    • Qwen2.5-Max: 基于超20万亿 token 训练的混合专家(MoE)架构旗舰模型,性能对标世界顶级闭源模型,通过阿里云 API 提供服务。
  • 核心意义: Qwen2.5-VL 将多模态交互从“看懂”提升到“操作”的维度。Qwen2.5-Max 则展示了阿里在训练超大模型上的技术实力,并与开源模型互补,构成商业化服务的高端产品线。
  • 参考来源: Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! 和 Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model

第三阶段:迈向 AGI 的创新范式 (2025年至今)

9. 2025年4月29日:Qwen3——集成“思考模式”的革命性模型

  • 发布模型: Qwen3 系列,包含 0.6B 至 32B 的 Dense 模型,以及 30B 和 235B 的 MoE 模型。
  • 主要特性:
    • 混合推理模式: 核心创新是引入可控的“思考模式”(Thinking Mode)。模型既可以快速响应,也可以通过更深的推理步骤解决复杂问题。
    • 极致效率与性能: 性能大幅提升,例如 Qwen3-4B 的表现可匹敌上一代的 Qwen2.5-72B。
    • 更广泛的多语言支持: 训练数据覆盖119种语言和方言。
    • 全面开源: 再次延续 Apache 2.0 的彻底开源精神。
  • 核心意义: “混合推理”是 LLM 架构的一大创新,是迈向更强通用人工智能(AGI)的重要一步。Qwen3 凭借其创新架构、卓越性能和更低的部署成本,为全球开源社区树立了新的标杆。
  • 参考来源: Qwen3: Think Deeper, Act Faster

在这里插入图片描述

http://www.xdnf.cn/news/14930.html

相关文章:

  • 数字图像处理学习笔记
  • C#.Net筑基-优雅LINQ的查询艺术
  • 算法-每日一题(DAY12)最长和谐子序列
  • TypeScript 安装使用教程
  • 电子面单系统开发全解析
  • 深度学习进阶:自然语言处理的推荐点评
  • 杭州来未来科技 Java 实习面经
  • STM32——代码开发顺序
  • 模型部署与推理--利用python版本onnxruntime模型部署与推理
  • 【仿muduo库实现并发服务器】Acceptor模块
  • 微信小程序21~30
  • grom使用mysql快速上手
  • nginx配置websocket
  • 如何在电脑上完全抹去历史记录
  • Ubuntu 20.04 下 OpenVINO 2024 安装与配置
  • 与后端现场联调mock数据
  • 内网ubuntu系统安装mysql
  • 直播 APP 开发需要多少成本
  • SpringBoot -- 自动配置原理
  • 回写缓存为何需要脏位?
  • 【MySQL基础】MySQL索引全面解析:从原理到实践
  • Linux 系统管理:自动化运维与容器化部署
  • AI编程实战:Cursor黑科技全解析
  • uniapp小程序蓝牙打印通用版(集成二维码打印)
  • 如何在Vue3中正确使用ref和reactive?
  • 2025年数据可视化十大创新趋势
  • 【分布式】自定义统一状态机流转设计
  • 【Pandas】pandas DataFrame Flags
  • Java开发新变革!飞算JavaAI深度剖析与实战指南
  • 【软考中级·软件评测师】下午题·面向对象测试之架构考点全析:分层、分布式、微内核与事件驱动