当前位置: 首页 > news >正文

【MLLM】多模态理解Ovis2.5模型架构和训练流程

note

  • 模型架构:延续 Ovis 系列创新的结构化嵌入对齐设计。
    Ovis2.5 由三大组件构成:动态分辨率 ViT 高效提取视觉特征,Ovis 视觉词表模块实现视觉与文本嵌入的结构对齐,最后由强大的 Qwen3 作为语言基座,处理多模态嵌入并生成文本输出。
  • 训练策略:采用更精细的五阶段训练范式,从基础的视觉预训练、多模态预训练、大规模指令微调,到利用DPO和GRPO等算法进行偏好对齐和推理能力强化,循序渐进构建模型能力。同时,通过多模态数据打包和混合并行等优化,实现了3-4倍的端到端训练加速。
  • 数据工程:Ovis2.5的数据规模相比Ovis2增加了50%,重点聚焦视觉推理、图表、OCR、Grounding等关键方向。尤其是合成了大量与Qwen3深度适配的“思考(thinking)”数据,有效激发了模型的反思与推理潜能。

文章目录

  • note
  • 一、多模态理解Ovis2.5模型
    • 1. 原生分辨率感知:看得清,看得全
    • 2. 深度推理能力:引入可选的“思考模式”
    • 3. SOTA性能表现:登顶开源模型榜单
    • 4. 高效训练架构:速度与规模兼得
  • 二、模型架构
  • 三、模型训练
    • 第一阶段:VET预训练 (视觉基础启蒙)
    • 第二阶段:多模态预训练 (图文对话入门)
    • 第三阶段:多模态指令微调 (能力全面拓展)
    • 第四阶段:多模态 DPO (与人类对齐)
    • 第五阶段:多模态强化学习 (推理能力冲刺)
  • 四、模型评测
  • Reference

一、多模态理解Ovis2.5模型

论文名称:Ovis2.5 Technical Report
第一作者:阿里 - Ovis Team
论文链接:https://arxiv.org/pdf/2508.11737
最新日期:2025年8月15日
github:https://github.com/AIDC-AI/Ovis.git
在这里插入图片描述

主流模型痛点:一是“视力不佳”,在处理复杂图表或高清大图时,往往需要把图片切成小块,像通过一根吸管看世界,丢失了全局信息;二是“思维线性”,习惯于一步到位的“思维链”(Chain-of-Thought),缺乏自我反思和纠错的能力,遇到复杂问题容易“一条道走到黑”。

1. 原生分辨率感知:看得清,看得全

Ovis2.5最大的革新之一,就是整合了原生分辨率视觉变换器(NaViT)。这意味着它不再需要将图片“大卸八块”,而是可以直接处理任意原始尺寸和长宽比的图像。这就像从一个定焦镜头升级到了一个能自由变焦、拥有超广角的全能相机,无论是精细的图表数据点还是复杂的全局页面布局,都能一览无余。

2. 深度推理能力:引入可选的“思考模式”

为了突破线性思维的局限,Ovis2.5在训练中引入了一种特殊的“反思式”数据,教会模型在回答前进行自我检查和修正。这个能力在推理时以一个可选的“思考模式”(Thinking Mode)开放给用户。对于简单问题,可以关闭它追求速度;对于复杂难题,可以开启它,让模型“多想一会儿”,以延迟换取更高的准确率。

3. SOTA性能表现:登顶开源模型榜单

Ovis2.5-9B在权威的OpenCompass多模态综合排行榜上,以78.3分的平均成绩,登顶40B参数规模以下的开源模型榜首。更令人印象深刻的是,其2B版本也取得了73.9的高分,在同量级模型中一骑绝尘,完美诠释了“小模型,大性能”的理念。

4. 高效训练架构:速度与规模兼得

如此强大的模型背后,是一套高效的训练基础设施。通过多模态数据打包和混合并行等优化技术,Ovis2.5的端到端训练速度提升了3到4倍,为模型快速迭代和扩展提供了坚实的基础。

二、模型架构

在这里插入图片描述

模型架构:延续 Ovis 系列创新的结构化嵌入对齐设计。
Ovis2.5 由三大组件构成:动态分辨率 ViT 高效提取视觉特征,Ovis 视觉词表模块实现视觉与文本嵌入的结构对齐,最后由强大的 Qwen3 作为语言基座,处理多模态嵌入并生成文本输出。

训练策略:采用更精细的五阶段训练范式,从基础的视觉预训练、多模态预训练、大规模指令微调,到利用DPO和GRPO等算法进行偏好对齐和推理能力强化,循序渐进构建模型能力。同时,通过多模态数据打包和混合并行等优化,实现了3-4倍的端到端训练加速。

数据工程:Ovis2.5的数据规模相比Ovis2增加了50%,重点聚焦视觉推理、图表、OCR、Grounding等关键方向。尤其是合成了大量与Qwen3深度适配的“思考(thinking)”数据,有效激发了模型的反思与推理潜能。

三、模型训练

训练数据示例:

问题:[一个复杂的数学问题]
回答:
<think>
好的,我们来分析这个问题。首先,我需要识别出所有的已知条件...
第一步,我尝试用公式A来计算,得到结果X。
等一下,我检查一下这个结果。似乎公式A在这里的应用前提不满足,这会导致错误。
我应该换个思路,使用公式B。
好的,用公式B重新计算第一步... 这样就合理了。
接下来进行第二步...
</think>
[最终的、经过修正的解题步骤和答案]

第一阶段:VET预训练 (视觉基础启蒙)

• 目标:教会模型最基础的“看图识物”,即训练好VET这个“视觉词典”。

• 方法:使用海量“图像-标题”数据对。为保证学习稳定,此阶段会冻结视觉编码器的大部分参数,只微调最后几层和VET。分辨率较低,且暂时关闭。

第二阶段:多模态预训练 (图文对话入门)

• 目标:打通视觉和语言的连接,让模型具备基础的对话和理解能力。

• 方法:开放所有模块的参数进行全量训练,并引入OCR、定位等更多样的任务。关键是,大幅提升了支持的图像分辨率,并全面启用了,为处理复杂视觉任务打下基础。

第三阶段:多模态指令微调 (能力全面拓展)

• 目标:让模型学会听懂并执行各种复杂的指令,并掌握深度推理能力。

• 方法:在这一阶段,训练数据变得极其丰富,包括单图、多图、视频、纯文本等多种模态。最重要的是,正式引入了带有<think>...</think>标签的反思式推理数据,开始培养模型的“思考模式”。

第四阶段:多模态 DPO (与人类对齐)

• 目标:让模型的输出更符合人类的偏好和价值观。

• 方法:采用当前主流的直接偏好优化(Direct Preference Optimization, DPO)技术。通过学习人类对不同回答的偏好数据(哪个回答更好,哪个更差),对模型进行微调,使其言行举止更像一个可靠的助手。

第五阶段:多模态强化学习 (推理能力冲刺)

• 目标:在已对齐的基础上,进一步拔高模型的逻辑推理上限。

• 方法:使用组相对策略优化(Group Relative Policy Optimization, GRPO),在大量可验证答案的推理任务(如数学题)上进行强化学习。此阶段会冻结视觉模块,将全部优化资源集中在LLM的“大脑”上,进行最后的推理能力冲刺。

四、模型评测

OpenCompass是一个综合性的多模态能力评测套件,涵盖了从常识问答、幻觉评估到专业学科推理的8个主流基准。• Ovis2.5-9B:取得了78.3分的惊人成绩,不仅远超其前代Ovis2-8B(71.8分),也超过了包括GLM-4.1V-9B-Thinking(76.1分)、Keye-VL-8B(76.7分)在内的所有同级别开源对手。

Ovis2.5-2B:以73.9分的成绩,刷新了2B级别模型的SOTA记录,甚至超过了许多体量远大于它的模型,展现出极高的效率。
在这里插入图片描述

Reference

[1] 登顶开源榜首,阿里Ovis2.5深度解读,多模态模型如何拥有原生视觉与深度思考能力?
[2] 阿里国际Ovis2.5重磅发布:以小博大,刷新开源模型性能新高度
[3] 论文名称:Ovis2.5 Technical Report
第一作者:阿里 - Ovis Team
论文链接:https://arxiv.org/pdf/2508.11737
最新日期:2025年8月15日
github:https://github.com/AIDC-AI/Ovis.git

http://www.xdnf.cn/news/1402003.html

相关文章:

  • Codeforces Round 1033 (Div. 2) and CodeNite 2025 vp补题
  • 【自然语言处理与大模型】如何进行大模型多模态微调
  • 互联网大厂Java面试:从基础到微服务的深度解析
  • folium地图不显示加载不出来空白问题解决
  • 将 Logits 得分转换为概率,如何计算
  • 学习嵌入式第四十一天
  • nestjs连接oracle
  • WIFI模块-USB-UART-SDIO
  • Manus AI 与多语言手写识别技术全解析
  • U-Boot移植过程中的关键目录文件解析
  • fastdds qos:LifespanQosPolicy
  • 【C++】类和对象(终章)
  • 第二十六天-待机唤醒实验
  • 信息系统架构
  • v-model ,在 vue3和 vue2中的区别
  • Linux(1)|入门的开始:Linux基本指令
  • 认识Redis
  • IDM手机端,速度能提高6倍!
  • CPU的MBR寄存器和MDR寄存器
  • 联合体和枚举——嵌入式学习笔记
  • Linux IO复用
  • 优选算法:二分查找
  • 数据库攻略:“CMU 15-445”Project0:C++ Primer(2024 Fall)
  • 《Java反射与动态代理:从原理到实践》
  • SpringBoot整合Actuator实现健康检查
  • MIT 6.5840 (Spring, 2024) 通关指南——Lab 1: MapReduce
  • GitHub 热榜项目 - 日榜(2025-08-30)
  • 基于Ubuntu本地GitLab 搭建 Git 服务器
  • 解构机器学习:如何从零开始设计一个学习系统?
  • 【LeetCode】大厂面试算法真题回忆(121) —— 经典屏保