当前位置: 首页 > news >正文

谷歌开源医疗领域多模态生成式AI模型:medgemma-4b-it

一、模型概述

MedGemma 是由 Google 开发的医疗领域多模态生成式 AI 模型,基于 Gemma 3 构建,旨在加速医疗保健 AI 应用的开发。该模型专为处理医疗文本和图像理解任务而训练,适用于放射学、皮肤病学、病理学和眼科等医疗领域。

MedGemma 提供两种变体:4B 多模态版本和 27B 纯文本版本。4B 版本包含 43 亿参数,支持图像 - 文本 - 文本处理;27B 版本包含 270 亿参数,仅支持文本处理。两个版本均提供预训练和指令微调两种形式,指令微调版本更适合作为多数应用的起点。

二、模型架构与技术细节

  1. 架构基础 :MedGemma 基于 Gemma 3 的解码器-only Transformer 架构,采用分组查询注意力(GQA)机制,支持至少 128K 令牌的长上下文。

  2. 图像编码器 :MedGemma 4B 使用 SigLIP 图像编码器,该编码器在多种去标识化的医疗数据上预训练,包括胸部 X 光、皮肤病图像、眼科图像和组织病理学切片等。

  3. 处理能力 :能够处理文本字符串和图像输入,文本输入如问题或提示,图像输入需标准化到 896×896 分辨率并编码为 256 令牌,总输入长度可达 128K 令牌,输出为生成的文本,总输出长度可达 8192 令牌。

三、模型性能与评估

  1. 多模态性能评估 :MedGemma 4B 在多个医学图像分类、视觉问答等任务上表现出色。例如,在 MIMIC CXR 数据集上,顶级 5 种病症的平均 F1 分数达 88.9,相比 Gemma 3 4B 的 81.1 有显著提升;在 CheXpert CXR 数据集上,相应的指标为 48.1,优于 Gemma 3 4B 的 31.2。

  2. 文本性能评估 :MedGemma 4B 和 27B 在多个纯文本医学知识与推理基准测试中超越了各自的基础 Gemma 模型。如在 MedQA(4-op)测试中,MedGemma 27B 取得 89.8(最佳 5 选 1)和 87.7(0 选 1)的成绩,高于 Gemma 3 27B 的 74.9 和 64.4。

  3. 伦理与安全评估 :采用结构化评估和内部红队测试,涵盖儿童安全、内容安全、代表性伤害和一般医疗伤害等多个类别。在无安全过滤器的情况下测试,模型在各领域均展现出安全性能水平,生成的政策违规内容极少。

四、数据与训练

  1. 数据集概述 :MedGemma 的训练数据集结合了公共和私有数据集,公共数据集包括 MIMIC-CXR、Slake-VQA、PAD-UFES-20、SCIN、TCGA、CAMELYON、PMC-OA 和 Mendeley Digital Knee X-Ray 等;私有数据集则有多个去标识化的放射学、眼科、皮肤病学和病理学数据集。

  2. 训练方式 :使用 JAX 进行训练,以充分利用最新硬件,包括 TPUs,实现更快更高效的大型模型训练。

五、使用场景与限制

  1. 应用场景 :可应用于医疗文本和图像相关的各种任务,如医疗图像的视觉问答、文本医学问题解答等,为下游医疗保健应用开发提供高效起点。

  2. 使用限制 :MedGemma 的输出并非旨在直接指导临床诊断、患者管理决策等临床实践应用,其生成结果应视为初步的,需要独立验证、临床关联和进一步调查。

MedGemma 核心技术汇总表格

在这里插入图片描述

http://www.xdnf.cn/news/595063.html

相关文章:

  • 完全禁用 Actuator 功能
  • 6个月Python学习计划 Day 1
  • Baklib企业知识中台AI实践
  • 2025年重庆水利水电安全员 A证考试精选题
  • Java设计模式
  • 爱博精电正式入驻京东平台,为客户提供更高效、便捷的采购体验
  • 结构型:装饰器模式
  • 项目开发中如何Git如何保持官方补丁更新
  • 工业物联网中隐私保护入侵检测的联邦学习增强型区块链框架
  • YOLOv11模型训练
  • Spring Ioc和Aop,Aop的原理和实现案例,JoinPoint,@Aspect,@Before,@AfterReturning
  • 如何使用小爱音响控制海尔等第三方平台设备
  • 从实验室到产业化:探究FSHD 技术发展史如何重塑显示行业格局?
  • 【物理学】声子:凝聚态物理中的关键概念
  • 视觉理解多模态模型转为API服务
  • 【Hexo】1.搭建本地初始默认的博客
  • 链表day4
  • 多线程初阶(3)
  • 数据表格控件TeeGrid for VCL/FMX:让数据“说话”更直观!
  • Android滑动冲突解决方法
  • 西交交互增强与细节引导的具身导航!OIKG:基于观察图交互与关键细节融合框架下的视觉语言导航
  • unittest
  • GITLIbCICD流水线搭建
  • 【Java高阶面经:数据库篇】17、分库分表分页查询优化:告别慢查询与内存爆炸
  • 软件设计师“设计原则”真题考点分析——求三连
  • [Usaco2007 Dec]队列变换 题解
  • AUTOSAR图解==>AUTOSAR_SRS_PortDriver
  • 硅基计划2.0 学习总结 叁
  • CLIP中的被动学习
  • OpenAI宣布:核心API支持MCP,助力智能体开发