谷歌开源医疗领域多模态生成式AI模型:medgemma-4b-it
一、模型概述
MedGemma 是由 Google 开发的医疗领域多模态生成式 AI 模型,基于 Gemma 3 构建,旨在加速医疗保健 AI 应用的开发。该模型专为处理医疗文本和图像理解任务而训练,适用于放射学、皮肤病学、病理学和眼科等医疗领域。
MedGemma 提供两种变体:4B 多模态版本和 27B 纯文本版本。4B 版本包含 43 亿参数,支持图像 - 文本 - 文本处理;27B 版本包含 270 亿参数,仅支持文本处理。两个版本均提供预训练和指令微调两种形式,指令微调版本更适合作为多数应用的起点。
二、模型架构与技术细节
-
架构基础 :MedGemma 基于 Gemma 3 的解码器-only Transformer 架构,采用分组查询注意力(GQA)机制,支持至少 128K 令牌的长上下文。
-
图像编码器 :MedGemma 4B 使用 SigLIP 图像编码器,该编码器在多种去标识化的医疗数据上预训练,包括胸部 X 光、皮肤病图像、眼科图像和组织病理学切片等。
-
处理能力 :能够处理文本字符串和图像输入,文本输入如问题或提示,图像输入需标准化到 896×896 分辨率并编码为 256 令牌,总输入长度可达 128K 令牌,输出为生成的文本,总输出长度可达 8192 令牌。
三、模型性能与评估
-
多模态性能评估 :MedGemma 4B 在多个医学图像分类、视觉问答等任务上表现出色。例如,在 MIMIC CXR 数据集上,顶级 5 种病症的平均 F1 分数达 88.9,相比 Gemma 3 4B 的 81.1 有显著提升;在 CheXpert CXR 数据集上,相应的指标为 48.1,优于 Gemma 3 4B 的 31.2。
-
文本性能评估 :MedGemma 4B 和 27B 在多个纯文本医学知识与推理基准测试中超越了各自的基础 Gemma 模型。如在 MedQA(4-op)测试中,MedGemma 27B 取得 89.8(最佳 5 选 1)和 87.7(0 选 1)的成绩,高于 Gemma 3 27B 的 74.9 和 64.4。
-
伦理与安全评估 :采用结构化评估和内部红队测试,涵盖儿童安全、内容安全、代表性伤害和一般医疗伤害等多个类别。在无安全过滤器的情况下测试,模型在各领域均展现出安全性能水平,生成的政策违规内容极少。
四、数据与训练
-
数据集概述 :MedGemma 的训练数据集结合了公共和私有数据集,公共数据集包括 MIMIC-CXR、Slake-VQA、PAD-UFES-20、SCIN、TCGA、CAMELYON、PMC-OA 和 Mendeley Digital Knee X-Ray 等;私有数据集则有多个去标识化的放射学、眼科、皮肤病学和病理学数据集。
-
训练方式 :使用 JAX 进行训练,以充分利用最新硬件,包括 TPUs,实现更快更高效的大型模型训练。
五、使用场景与限制
-
应用场景 :可应用于医疗文本和图像相关的各种任务,如医疗图像的视觉问答、文本医学问题解答等,为下游医疗保健应用开发提供高效起点。
-
使用限制 :MedGemma 的输出并非旨在直接指导临床诊断、患者管理决策等临床实践应用,其生成结果应视为初步的,需要独立验证、临床关联和进一步调查。