小米MiMo-VL技术报告解读
小米于2025年6月开源了最新的多模态大模型MiMo-VL, 相比于Qwen-VL-7B在40个任务的性能对比上,有35个任务超过了Qwen-VL-7B。
小米开源了
MiMo-VL-7B-SFT
和MiMo-VL-7B-RL
这两个强大的视觉语言模型,在通用视觉理解和多模态推理方面都提供了最先进的性能表现。MiMo-VL-7B-RL在40个评估任务中的35个上优于Qwen2.5-VL-7B,并在OlympiadBench上获得59.4分,超越了参数量高达78B的模型。在GUI grounding应用方面,它以OSWorld-G 56.1分的成绩树立了新标准,甚至超越了UI-TARS等专用模型。我们的训练方法结合了四阶段
预训练(2.4万亿token)和混合On-policy
强化学习(MORL),整合了多样化的reward信号。我们认识到在预训练阶段融入高质量、长思维链的推理数据的重要性,以及尽管面临多领域同步优化的挑战,混合强化学习仍能带来显著优势。我们还贡献了一个包含50多项任务的综合评估脚本,以促进可重复性研究并推动领域发展。模型检查点和完整评估脚本可在https://github.com/XiaomiMiMo/MiMo-VL获取。
pap