当前位置: 首页 > web >正文

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

CVPR 2025 | MIMO:支持视觉指代和像素对齐的医学视觉语言模型

论文信息

  • 标题:MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output
  • 作者:Yanyuan Chen, Dexuan Xu, Yu Huang, 等
  • 单位:北京大学软件与微电子学院、计算机科学学院、第六医院等
  • 收录会议:CVPR 2025
  • 论文链接:GitHub项目地址

背景介绍

近年来,医学视觉语言模型(MVLMs)在医学图像问答等任务中展现出巨大潜力。然而,现有模型大多只能处理文本指令,缺乏对图像中具体视觉区域的直接理解,输出也仅限于文本,难以与图像中的关键区域建立精准联系。


创新点概述

本文提出 MIMO,首个支持“视觉指代多模态输入”和“像素级对齐多模态输出”的医学视觉语言模型。其主要创新包括:

  1. 视觉指代输入:支持将文本指令与图像中的点、框等视觉提示共同输入,实现对医学图像关键区域的精准提问。
  2. 像素对齐输出:模型不仅输出文本答案,还能将文本中的医学实体与图像中的具体分割区域一一对应,实现“所见即所得”。
  3. 大规模多模态数据集:自建 MIMOSeg 数据集,包含 89.5 万条高质量样本,覆盖 CT、X 光等 8 种医学图像模态,支持多种复杂任务场景。

方法框架

MIMO 模型主要由以下几个部分组成:

  • 视觉编码器:采用 CLIP ViT-H/14 提取图像特征。
  • 视觉提示编码器:对点、框等提示进行编码,辅助模型理解用户关注区域。
  • 多模态输入对齐器:融合文本、图像、视觉提示等多模态信息,实现高效跨模态对齐。
  • 大语言模型:基于 Vicuna,负责文本生成,并通过特殊标记将关键医学实体与分割掩码关联。
  • 分割解码器:借助 SAM(Segment Anything Model)等分割模型,输出实体对应的像素级掩码。

数据集构建

MIMOSeg 包含四大任务视角:

  1. 文本指导分割:仅靠文本指令分割目标区域。
  2. 视觉提示感知:结合视觉提示(点/框)和文本指令分割目标区域。
  3. 分割对齐问答:在问答中输出与实体对应的分割掩码。
  4. 视觉提示辅助问答:结合视觉提示和问答,输出答案及分割区域。

覆盖 CT、X 光、眼底、病理等丰富数据,极大提升模型泛化能力。


实验结果

  • 在 MIMOSeg 和多个公开医学数据集上的实验表明,MIMO 在分割准确率、问答质量等方面均大幅优于现有主流模型(如 SAM、LLaVA-Med、HuatuoGPT-Vision 等)。
  • 消融实验进一步验证了多模态输入对齐器等关键模块的有效性。

总结与展望

MIMO 是首个实现 视觉指代+像素落地 能力的医学视觉语言模型,极大提升了医学 AI 对图像及文本复杂关系的理解与表达能力。未来,该模型有望应用于智能辅助诊断、影像报告生成等医学场景,推动多模态医学 AI 的发展。


项目地址:https://github.com/pkusixspace/MIMO


欢迎关注,获取更多前沿 AI 论文与解读!

http://www.xdnf.cn/news/13335.html

相关文章:

  • 深度学习:概念、特点和发展史
  • Admin.Net中的消息通信SignalR解释
  • 基于OpenCV的风格迁移:图像金字塔方法
  • jupyterhub的浅浅使用-重点在解决无法登录
  • GD32-开发工程搭建
  • 超短脉冲激光自聚焦效应
  • 人脸识别技术应用备案找不找第三方
  • CppCon 2015 学习:Practical Move Semantics
  • SpringBoot+Vue+MySQL全栈开发实战:前后端接口对接与数据存储详解
  • 【算法篇】逐步理解动态规划模型5(子序列问题)
  • 隐藏wordpress后台登陆地址 让wordpress网站更安全
  • 【VBA】使用脚本把doc/docx转换为pdf格式
  • 消息消费类型和具体实现
  • nsswitch.conf配置文件内容解析
  • 生产安全与设备管理如何分清界限?如何正确用设备管理系统?
  • 微机原理与接口技术,期末冲刺复习资料(五)
  • 3.1 数据链路层的功能
  • 商品中心—2.商品生命周期和状态的技术文档
  • HTML 、CSS 、JavaScript基本简单介绍
  • 大型活动交通拥堵治理的视觉算法应用
  • ceph集群调整pg数量实战(下)
  • 【如何用Python调用DeepSeek的API接口?】
  • JavaSec-RCE
  • Python爬虫实战:爬取知乎回答详情
  • WebRTC(二):工作机制
  • CARSIM-车速、油门、刹车练习
  • 【计网】作业7
  • 金属矫平机:塑造平整与精度的工业利器
  • 【机器视觉】单目测距——运动结构恢复
  • synchronized 学习