当前位置：首页 > java >正文

配合图解 SEG-SAM: Semantic-Guided SAM for Unified Medical Image Segmentation

java 2025/7/4 20:08:41

在这里插入图片描述
论文：论文下载地址

🔍 研究背景

Segment Anything Model（SAM）在自然图像中表现出色，但在医学图像中存在挑战：
- 只能进行二值分割（前景/背景）
- 类别语义缺失，不利于区分类似结构（如肝与肾）
医学图像常包含模态多样性（CT、MRI 等）与多类别重叠问题

🎯 核心目标

构建一个具备语义理解能力的 SAM 变种，支持 统一医学图像分割（binary + semantic）

🎯 摘要

近年来，开发统一的医学图像分割模型引起了越来越多的关注，尤其是在Segment Anything Model (SAM)出现之后。SAM在自然领域展示了有前景的二值分割性能，然而将其迁移到医学领域仍然具有挑战性，因为医学图像通常具有显著的类别间重叠。为了解决这一问题，作者提出了语义引导的SAM (SEG-SAM)，这是一个统一的医学分割模型，通过结合语义医学知识来增强医学分割性能。首先，为了避免二值预测和语义预测之间的潜在冲突，作者引入了一个独立于SAM原始解码器的语义感知解码器，专门用于图像中提示对象的语义分割和未提示对象的分类。为了进一步增强模型的语义理解能力，作者从大型语言模型中获取医学类别的关键特征，并通过文本到视觉语义模块将其融入SEG-SAM中，自适应地将语言信息转化为视觉分割任务。最后，作者引入了跨掩码空间对齐策略，以鼓励SEG-SAM的两个解码器生成的掩码之间有更大的重叠，从而使两个预测都受益。大量实验表明，SEG-SAM在统一的二值医学分割任务中优于最先进的基于SAM的方法，在语义医学分割任务中优于特定任务的方法，展示了有前景的结果和更广泛的医学应用潜力。

🧠 模型结构：SEG-SAM

在这里插入图片描述

我们来看这张图（Figure 2），它完整地展示了 SEG-SAM 模型的处理流程，我会从左到右按模块流程 + 说明作用来讲解，配合图中文字你会更容易理解整个架构是如何运作的。

🧭 SEG-SAM 全流程详解（配合图解）

🟫 1. 输入部分

🔹 Input image $I$
输入一张医学图像（如 CT 腹部），目标是根据提示（点或框）对某个器官进行分割。

🟦 2. SAM 模块（蓝色区域）

🧊 Image Encoder

将图像 $I$ 经过多个 Transformer Layer
输出视觉特征： $f_v$
这个部分参数被冻结，不训练（❄️）

🔥 Prompt Encoder

将用户输入的提示（如框选“胰腺”）编码成提示 token： $t_p$

🔥 Semantic-Agonistic Decoder

使用 SAM 原始 decoder
输入 $t_o$ 和 $t_p$ 以及 $f_v$
输出：仅提示目标的 二值分割掩膜 $\hat{M}_b$ （前景/背景）

🟨 3. SEG-SAM 增强模块（黄色区域）

🧠 Text-to-Vision Semantic Enhancement (T2VSE)

文本语义生成
- 通过 LLM（如 GPT）生成器官的形状/纹理/位置描述
- 转为 text embedding 向量 $f_t$
- 加入 Text Summary Token $t_\text{text}$
Cross-Attention 融合
- 文本特征 $f_t + t_\text{text}$ 与图像特征 $f_v$ 跨模态交互
- 输出：增强语义向量 $t'_\text{text}$
融合到提示 token
- $t'_\text{text}$ 通过 MLP 融入 $t_p$
- 得到增强的提示 token： $t'_p$

🟨 4. Semantic-Aware Decoder（右侧浅黄色区域）

SEG-SAM 的核心组件，功能分为两部分：

✅ 4.1 分割提示目标（使用 SO-Token）

输入：提示 token $t_p$ + 图像特征 $f_v$ + 分割 token $t_{so}$
通过：
- Self-Attention
- Bidirectional CrossAttention
输出：语义掩膜 $\hat{M}_s$ （可区分类别）

✅ 4.2 分类非提示目标（使用 CO-Tokens）

每个 CO-Token 代表一个类别（如肝脏、胰腺、肾脏…）
仅做类别是否存在的二分类（不是分割）
通过 CrossAttention 与 $f_v$ 交互 → 输出概率分布 $\hat{C}_s$

🔁 信息融合

$\hat{C}_s$ → 通过 MLP → 融入 $t_{so}$
提供语义先验信息用于优化主目标的语义分割

✅ 5. 输出结果（图右侧）

$\hat{M}_b$ ：前景/背景的 二值掩膜
$\hat{M}_s$ ：具有类别标签的 语义掩膜
$\hat{C}_s$ ：非提示对象的 类别概率

🎯 小结一句话：

SEG-SAM 的整个流程是：

编码图像 + 提示
注入文本语义信息
用两个解码器分别处理：
- 一个负责分割（提示对象）
- 一个负责分类（非提示对象）
输出掩膜 + 类别信息

⚙️ 模型训练策略

🔧 输入/输出配置

使用 SAM 的点/框提示方式
每张图随机采样 5 个目标进行训练

🧮 损失函数

$L_{bin}$ ：二值分割损失（Focal + Dice）
$L_{sem}$ ：语义分割损失（CE + Dice）
$L_{bce}$ ：非提示目标的二分类损失
$L_{cons}$ ：Cross-mask 一致性损失
```
L_{cons} = 1 - \frac{|M_s ∩ M_b|}{|M_s ∪ M_b|}
```