当前位置：首页 > ds >正文

小米MiMo-VL技术报告解读

ds 2025/8/12 14:35:28

在这里插入图片描述
小米于2025年6月开源了最新的多模态大模型MiMo-VL, 相比于Qwen-VL-7B在40个任务的性能对比上，有35个任务超过了Qwen-VL-7B。

小米开源了MiMo-VL-7B-SFT和MiMo-VL-7B-RL这两个强大的视觉语言模型，在通用视觉理解和多模态推理方面都提供了最先进的性能表现。MiMo-VL-7B-RL在40个评估任务中的35个上优于Qwen2.5-VL-7B，并在OlympiadBench上获得59.4分，超越了参数量高达78B的模型。在GUI grounding应用方面，它以OSWorld-G 56.1分的成绩树立了新标准，甚至超越了UI-TARS等专用模型。我们的训练方法结合了四阶段预训练（2.4万亿token）和混合 On-policy强化学习（MORL），整合了多样化的reward信号。我们认识到在预训练阶段融入高质量、长思维链的推理数据的重要性，以及尽管面临多领域同步优化的挑战，混合强化学习仍能带来显著优势。我们还贡献了一个包含50多项任务的综合评估脚本，以促进可重复性研究并推动领域发展。模型检查点和完整评估脚本可在https://github.com/XiaomiMiMo/MiMo-VL获取。
pap

http://www.xdnf.cn/news/17558.html

相关文章：

【网络与爬虫 51】Scrapy-Cluster分布式爬虫集群：企业级大规模数据采集解决方案

浅谈 VM 桥接模式：让虚拟机像真实电脑一样接入网络

openvela之STM32开发板部署

BMS三大领域：电池、楼宇与业务管理系统解析

VisionMoE本地部署的创新设计：从架构演进到高效实现

102-基于Spark的招聘数据预测分析推荐系统

Android中RecyclerView基本使用

SpringBoot配置生效优先级

CPU缓存（CPU Cache）和TLB（Translation Lookaside Buffer）缓存现代计算机体系结构中用于提高性能的关键技术

Irix HDR Pro：专业级 HDR 图像处理软件

ubuntu 端口占用但是找不到进程与docker 容器镜像相关

rem：CSS中的相对长度单位

B.10.01.3-性能优化实战：从JVM到数据库的全链路优化

莫比乌斯反演学习笔记

.htaccess 文件上传漏洞绕过总结

Delphi：TList/TObjectList 设计中的 Notify 设计范式

供应链需求预测项目如何设定合理的KPI、准确率指标（十四）

Spring Boot 集成 Quartz 实现定时任务（Cron 表达式示例）

Spark02 - SparkContext介绍

【多模态目标检测数据集】【VEDAI】航空影像中的车辆检测：小目标检测基准

2025年渗透测试面试题总结-10（题目+回答）

C语言：构造类型

C++学习之STL学习：map/set

【面试题】cookie和session 的区别

使用GTX ip core + SDI IP core实现SDI设计

BeanDefinition 与 Bean 生命周期（面试高频考点）

《Learning To Count Everything》论文阅读

鸿蒙开发中的Tabs组件详解

使用 Visual Studio 2022 编译 PortAudio 项目