当前位置：首页 > news >正文

[Survey] Image Segmentation in Foundation Model Era: A Survey

news 2025/7/5 9:38:13

BaseInfo


Title	Image Segmentation in Foundation Model Era: A Survey
Adress	https://arxiv.org/pdf/2408.12957
Journal/Time	-
Author	北理工、上交、浙大 CCAI 、瑞士苏黎世联邦理工学院、德国慕尼黑工业大学
Code	https://github.com/stanley-313/ImageSegFM-Survey

1. Introduction

通用图像分割（即语义分割、实例分割、全景分割）
可提示的图像分割（即交互式分割、指代分割、少样本分割）
在这里插入图片描述
开创性算法 N-Cut、FCN 和 MaskFormer -> adapting FMs: CLIP、Stable Diffusion、DINO -> SAM, SAM2 专有的。

将像素划分为不同的组 -> 更高级目标（包括物理场景理解、基于视觉常识的推理、感知社交关联）-> 自动驾驶、医学图像分析、自动监控和图像编辑等众多领域

传统的非深度学习方法，如阈值分割 [1, 2]、直方图模式搜索 [3, 4]、区域生长和合并 [5, 6]、空间聚类 [7]、能量扩散 [8]、超像素 [9]、条件随机场和马尔可夫随机场 [10]
深度学习方法，例如基于全卷积网络（FCN）的方法 [11 - 20]，尤其是 DeepLab 系列 [17 - 20]、基于 RNN 的方法 [21]、基于 Transformer 的方法 [22 - 28] 以及 R - CNN 系列 [29 - 31]。
基础模型（FMs）: 包括自然语言处理 [33]、计算机视觉 [34] 以及许多跨学科领域 [35 - 37]。著名的例子包括大语言模型（LLMs），如 GPT - 3 [38] 和 GPT - 4 [39]，多模态大语言模型（MLLMs），如 Flamingo [40] 和 Gemini [41]，以及扩散模型（DMs），如 Sora [42] 和 Stable Diffusion（SD） [43] : 生成推理链 [46]、在对话场景中提供类似人类的回复 [38]、创建逼真的视频 [42] 以及合成新颖的程序 [47].

分割领域的新任务：如 zero-shot 、few-shot、开放词汇语义分割、不同的提示分割
Training-free segmentation ：无训练分割是近年来兴起的一个新兴研究领域。它旨在从预训练的FMs中提取分割知识，这标志着与已有的学习范式（如监督学习、半监督学习、弱监督学习和自监督学习）的不同。CLIP，Stable Diffusion 或DINO/DINOv2，最初不是为分割目的而设计，也可以很轻易得到 mask。
integrating LLMs into segmentation systems ：将大语言模型融入分割系统，参考图像分割 Referring Image Segmentation 和推理图像分割 Reasoning Image Segmentation
Generative models：特别是文本到图像的扩散模型

在这里插入图片描述

2. Background

分别将 $\mathcal{X}$ 和 $\mathcal{Y}$ 表示为输入空间和输出分割空间。图像分割解决方案旨在学习一个理想的映射函数 $f$ ： $\mathcal{X} \mapsto \mathcal{Y} ，其中\mathcal{X} = \mathcal{I} \times \mathcal{P}，\mathcal{Y} = \mathcal{M} \times \mathcal{C}$ 这里 $f$ 通常具体化为一个神经网络。输入空间 $\mathcal{X}$ 被分解为 $\mathcal{I} \times \mathcal{P}$ ，其中 $\mathcal{I}$ 代表图像域（仅包含单个图像 $I$ ）， $\mathcal{P}$ 指的是提示集合，在某些分割任务中会专门使用。输出空间 $\mathcal{Y} = \mathcal{M} \times \mathcal{C}$ ，它包含一组分割掩码 $\mathcal{M}$ 以及与这些掩码相关的语义类别词汇表 $\mathcal{C}$ 。

通用图像分割（GIS）输入空间仅包含图像，即 $\mathcal{X} \equiv \mathcal{I}$ ，这表明 $\mathcal{P} = \emptyset$ 。根据测试词汇表 $\mathcal{C}_{test}$ 是否包含训练词汇表 $\mathcal{C}_{train}$ 中不存在的新类别，这三个任务在两种设置下进行研究：封闭词汇（即 $\mathcal{C}_{train} \equiv \mathcal{C}_{test}$ ）和开放词汇（即 $\mathcal{C}_{train} \subset \mathcal{C}_{test}$ ）分割。
- 语义分割: 图像中每个像素所属的语义类别，该类别来自 $\mathcal{C}$
- 实例分割: 将属于同一语义类别的像素分组为单独的对象实例。
- 全景分割: 结合了语义分割和实例分割，以预测每个像素的类别和实例标签，并且能够提供全面的场景解析。
提示图像分割（PIS）额外纳入了一组提示 $\mathcal{P}$ ，用于指定要分割的目标。
- 交互式分割旨在根据用户输入（通常通过点击、涂抹、绘制框或多边形提供，即 $\mathcal{P} = \{\text{click, scribble, box, polygon}\}$ ）分割出特定对象或部分。
- 指称分割提取由文本短语所指的相应区域，即 $\mathcal{P} = \{linguistic \space phrase\}$ 指的是文本提示。
- 少样本分割（图 1f）旨在利用少量带注释的支持图像在给定查询图像中分割新对象，即 $\mathcal{P} = \{(image, mask)\}$ 指的是图像 - 掩码对的集合。

学习策略:
i）监督学习：现代图像分割方法通常以完全监督的方式进行学习，这需要一组训练图像及其期望的输出，即每个像素的注释。
ii）无监督学习：在没有明确标注监督的情况下，逼近f 的任务属于无监督学习。现有的大多数基于无监督学习的图像分割模型利用自监督技术，用从图像数据自动生成的伪标签来训练网络。
iii）弱监督学习：在这种情况下，监督信息可能不准确、不完整或不正确。对于不准确的监督，标签通常来自更容易标注的领域（如图像标签、边界框、涂抹）。对于不完整的监督，仅为训练图像的一个子集提供标签。不准确的监督意味着虽然存在噪声，但为所有训练图像提供每个像素的注释。
iv）自由训练：除了上述策略之外，在基础模型时代，无需训练的分割受到了关注，它旨在直接从预训练的基础模型中提取分割信息，而无需进行任何模型训练。

基础模型：any model that is trained on broad data (generally using self-supervision at scale) that can be adapted to a wide range of downstream tasks

Language Foundation Model 语言基础模型

Large Language Models (LLMs)
Multimodal Large Language Models (MLLMs) 将推理能力与处理非文本模态（如视觉、音频）的能力相结合。

Visual Foundation Model 视觉基础模型

Contrastive Language-Image Pre-training (CLIP). 对比学习 CLIP 和 ALIGN
Diffusion Models (DMs) 扩散模型
Self-Distillation with No Labels (DINO&DINOv2).
Segment Anything (SAM)

在这里插入图片描述

SEGMENTATION KNOWLEDGE EMERGES FROM FMS

CLIP 学习的是整体视觉特征，位置信息相对不变。Mask-CLIP ：修改 CLIP 的图像编码器：(1) 删除查询和关键嵌入层； (2) 将值嵌入层和最后一个线性层重新组合成两个各自的 1×1 卷积层。. GEM：计算 k q v 的各自通过矩阵乘法得到关联矩阵。 $\text{softmax}(\mathbf{q}\mathbf{q}^\top)+\text{softmax}(\mathbf{k}\mathbf{k}^\top)+\text{softmax}(\mathbf{v}\mathbf{v}^\top)$
DM :关键在于分割源自扩散模型中的交叉注意力图。
$\text{CrossAttention}(q, k)=\text{softmax}(qk^\top / \sqrt{d})$ 。其中， $\Phi(z_t) \in \mathbb{R}^{hw \times d}$ ， $\Psi(e) \in \mathbb{R}^{N \times d}$ 。 $\Phi$ 和 $\Psi$ 是 U - Net 中在隐空间进行去噪的线性层。 $\in \mathbb{R}^{hw \times N}$ 表示单个头的交叉注意力图。
DINO : 在最后一层注意力头中，通过计算类别标记 [CLS] 的查询特征 $\boldsymbol{q}_{\text{CLS}}$ 和图像块标记 [I] 的键特征 $\boldsymbol{k}^{\top}_{\text{I}}$ 的点积，得到亲和向量 $\boldsymbol{\alpha}_{\text{CLS}} = \boldsymbol{q}_{\text{CLS}} \cdot \boldsymbol{k}^{\top}_{\text{I}} \in \mathbb{R}^{1 \times M}$ 。对每个注意力头 $\boldsymbol{\alpha}_{\text{CLS}}$ 进行平均,对这个最终注意力图进行二值化处理（比如设置一个阈值，大于阈值的像素设为 1，小于阈值的设为 0 ），就可以得到分割掩码.一些工作还直接利用图像块标记之间的相似性来定位目标。

4. FOUNDATION MODEL BASED GIS

在这里插入图片描述

如何将 CLIP 中的预训练知识迁移到分割任务中？

Training free Semantic Segmentation ：对自注意力模块稍作修改，从 CLIP 导出分割掩码是可行的。）利用 CLIP 文本编码器作为分类器来确定每个掩码的类别，从而实现语义分割，整个过程无需额外训练或微调。
CLIP 微调：遵循流行的 “预训练 - 微调” 范式，大量方法使用分割数据对 CLIP 进行微调，可分为全量微调或参数高效微调方法。全量微调方法需调整 CLIP 的整个视觉或文本编码器。防止对已见类别过拟合，它们都学习特定于图像的文本嵌入，以实现更准确的像素 - 文本对齐；
CLIP 作为零样本分类器：掩码分类方法（文献 [128]-[136] ）通常遵循两阶段范式，即首先提取与类别无关的掩码提议，然后使用预训练的 CLIP 对提议进行分类。像素分类：像素分类方法（文献 [101]、[137]-[141] ）使用 CLIP 识别像素。
文本监督下的语义分割:TagAlign（文献 [147] ）也专注于优化部分，并引入精细属性作为监督信号，实现密集的图像 - 文本对齐。
知识蒸馏（KD）:CLIP-DINOiser（文献 [153] ）将 DINO 作为教师模型，引导 CLIP 学习类似 DINO 的、有利于分割的特征。

扩散模型（DMs）：

Training free Semantic Segmentation：
利用扩散模型潜在特征进行语义分割：多数用 T2I - DMs（主要是 SD ）挖掘语义表示。
去噪扩散模型的语义分割：将语义分割重新表述为去噪扩散过程，通过迭代去噪过程学习预测给定随机噪声和图像编码器视觉特征条件下的噪声图
利用 T2I - DMs 进行数据增强，而非直接生成合成掩码。

DINO

通过直接分组实现无监督分割: 直接利用 DINO 特征进行区域分组. 利用 k - means 聚类或基于图的。
通过自训练实现无监督语义分割: 尝试从 DINO 特征训练分割模型，自动从 DINO 特征中获取伪标签。

SAM : 缺乏语义感知能力，但它具有通用且出色的分割能力。在弱监督场景下常被用于提升分割质量, 比如利用 SAM 对分割掩码进行后处理，以及将其用于零样本推理.
CLIP 在语义理解方面表现出色，SAM 和 DINO 则专注于空间定位。

5. FOUNDATION MODEL BASED PIS

在这里插入图片描述

交互式分割：SAM 引入多粒度交互式分割流程，每次用户交互时，期望的分割区域可能涉及附近不同部分的对象概念。通过将查询分割区域与 CLIP 的相应文本表示对齐来微调 SAM 。
Referring Segmentation：
基于 CLIP

Training-free ：文献：Zero-shot referring image seg- mentation with global-local context features 和 Text augmented spatial aware zero-shot referring image segmentation 基于跨模态相似度识别目标掩码
多模态知识迁移：常见方法是将 CLIP 特征与文本特征融合，训练文本到像素的对比学习，在每个阶段整合桥接模块。
弱监督：TSEG 用 CLIP 计算文本目标相似度，通过多补丁分配机制指导分类目标。
基于 DMs
Training-free ：前景掩码优化问题。
扩散特征：模型反转注意力图可直观得到初始视觉密集表示，用于生成最终分割掩码。
基于 LLMs：实现推理分割。
BERT因其简单性和实用性成为首选。多数方法设计融合模块，连接视觉编码器和解码器与 BERT。
使用大型语言模型作为多模态统一处理工具，将图像和文本融合为统一特征空间，生成强大对话能力。
增强视觉基础的方法广泛用于丰富分割先验知识，提供提示驱动框架连接 CLIP 和 SAM，构建提示机制，在编码器 - 解码器架构中结合 CLIP 和 SAM，采用简单高效的双编码器设计，分别适配 SAM 和 LLM 提取图像和文本特征，融合多模态特征进行分割预测。

小样本分割

基于 CLIP 的特征表示，通过函数图像生成原型，计算查询原型距离
DMs 的内部表示对小样本分割有用，可将支持图像特定时间步的表示作为输入，解码为原始图像并输入掩码解码器。通过去噪扩散过程处理小样本分割，微调 SD 以明确生成掩码。
利用 DINO/DINOv2 丰富的潜在表示来增强查询和支持图像的特征
基于支持查询图像对的相似性生成候选点，突出查询图像的语义，用于指导目标导向提示。
一些基于 LLM/MLLM 的通过指令设计解决 FSS 问题。
上下文分割（ICS），即仅用少量示例预测分割掩码，无需特定微调。

6. OPEN ISSUE AND FUTURE DIRECTION

解释：不同 FMs 在架构、数据和训练方式上有差异，但当前方法无法充分解释模型如何学习，尤其是像素与其他模态交互，需新方法理解像素在 FMs 中的作用，这对减少负面影响、拓展应用很关键。
In-Context Segmentation. 上下文学习。
缓解基于 MLLMs 模型的物体幻觉问题：幻觉问题（模型生成不存在或错误物体描述）
强大且可扩展的数据引擎
扩散模型作为新数据源
高效图像分割模型：基于 FM 的分割模型计算量大、需精细调整，影响实际应用。

@article{zhou2024SegFMSurveytitle={Image Segmentation in Foundation Model Era: A Survey},author={Zhou, Tianfei and Xia, Wang and Zhang, Fei and Chang, Boyu and Wang, Wenguan and Yuan, Ye and Konukoglu, Ender and Cremers, Daniel},journal={arXiv preprint arXiv:2408.12957},year={2024},
}

查看全文

http://www.xdnf.cn/news/239707.html