当前位置: 首页 > ds >正文

小米MiMo-VL技术报告解读

在这里插入图片描述
小米于2025年6月开源了最新的多模态大模型MiMo-VL, 相比于Qwen-VL-7B在40个任务的性能对比上,有35个任务超过了Qwen-VL-7B。

小米开源了MiMo-VL-7B-SFTMiMo-VL-7B-RL这两个强大的视觉语言模型,在通用视觉理解和多模态推理方面都提供了最先进的性能表现。MiMo-VL-7B-RL在40个评估任务中的35个上优于Qwen2.5-VL-7B,并在OlympiadBench上获得59.4分,超越了参数量高达78B的模型。在GUI grounding应用方面,它以OSWorld-G 56.1分的成绩树立了新标准,甚至超越了UI-TARS等专用模型。我们的训练方法结合了四阶段预训练(2.4万亿token)和混合 On-policy强化学习(MORL),整合了多样化的reward信号。我们认识到在预训练阶段融入高质量、长思维链的推理数据的重要性,以及尽管面临多领域同步优化的挑战,混合强化学习仍能带来显著优势。我们还贡献了一个包含50多项任务的综合评估脚本,以促进可重复性研究并推动领域发展。模型检查点和完整评估脚本可在https://github.com/XiaomiMiMo/MiMo-VL获取。
pap

http://www.xdnf.cn/news/17558.html

相关文章:

  • Docker容器
  • 【网络与爬虫 51】Scrapy-Cluster分布式爬虫集群:企业级大规模数据采集解决方案
  • 浅谈 VM 桥接模式:让虚拟机像真实电脑一样接入网络
  • openvela之STM32开发板部署
  • BMS三大领域:电池、楼宇与业务管理系统解析
  • VisionMoE本地部署的创新设计:从架构演进到高效实现
  • 102-基于Spark的招聘数据预测分析推荐系统
  • Android中RecyclerView基本使用
  • SpringBoot配置生效优先级
  • CPU缓存(CPU Cache)和TLB(Translation Lookaside Buffer)缓存现代计算机体系结构中用于提高性能的关键技术
  • Irix HDR Pro:专业级 HDR 图像处理软件
  • ubuntu 端口占用 但是找不到进程 与docker 容器镜像相关
  • rem:CSS中的相对长度单位
  • B.10.01.3-性能优化实战:从JVM到数据库的全链路优化
  • 莫比乌斯反演学习笔记
  • .htaccess 文件上传漏洞绕过总结
  • Delphi:TList/TObjectList 设计中的 Notify 设计范式
  • 供应链需求预测项目如何设定合理的KPI、准确率指标(十四)
  • Spring Boot 集成 Quartz 实现定时任务(Cron 表达式示例)
  • Spark02 - SparkContext介绍
  • 【多模态目标检测数据集】【VEDAI】航空影像中的车辆检测:小目标检测基准
  • 2025年渗透测试面试题总结-10(题目+回答)
  • C语言:构造类型
  • C++学习之STL学习:map/set
  • 【面试题】cookie和session 的区别
  • 使用GTX ip core + SDI IP core实现SDI设计
  • BeanDefinition 与 Bean 生命周期(面试高频考点)
  • 《Learning To Count Everything》论文阅读
  • 鸿蒙开发中的Tabs组件详解
  • 使用 Visual Studio 2022 编译 PortAudio 项目