当前位置: 首页 > news >正文

[Survey] Image Segmentation in Foundation Model Era: A Survey

BaseInfo

TitleImage Segmentation in Foundation Model Era: A Survey
Adresshttps://arxiv.org/pdf/2408.12957
Journal/Time-
Author北理工、上交、浙大 CCAI 、瑞士苏黎世联邦理工学院、德国慕尼黑工业大学
Codehttps://github.com/stanley-313/ImageSegFM-Survey

1. Introduction

通用图像分割(即语义分割、实例分割、全景分割)
可提示的图像分割(即交互式分割、指代分割、少样本分割)
在这里插入图片描述
开创性算法 N-Cut、FCN 和 MaskFormer -> adapting FMs: CLIP、Stable Diffusion、DINO -> SAM, SAM2 专有的。


将像素划分为不同的组 -> 更高级目标(包括物理场景理解、基于视觉常识的推理、感知社交关联)-> 自动驾驶、医学图像分析、自动监控和图像编辑等众多领域

  1. 传统的非深度学习方法,如阈值分割 [1, 2]、直方图模式搜索 [3, 4]、区域生长和合并 [5, 6]、空间聚类 [7]、能量扩散 [8]、超像素 [9]、条件随机场和马尔可夫随机场 [10]
  2. 深度学习方法,例如基于全卷积网络(FCN)的方法 [11 - 20],尤其是 DeepLab 系列 [17 - 20]、基于 RNN 的方法 [21]、基于 Transformer 的方法 [22 - 28] 以及 R - CNN 系列 [29 - 31]。
  3. 基础模型(FMs): 包括自然语言处理 [33]、计算机视觉 [34] 以及许多跨学科领域 [35 - 37]。著名的例子包括大语言模型(LLMs),如 GPT - 3 [38] 和 GPT - 4 [39],多模态大语言模型(MLLMs),如 Flamingo [40] 和 Gemini [41],以及扩散模型(DMs),如 Sora [42] 和 Stable Diffusion(SD) [43] : 生成推理链 [46]、在对话场景中提供类似人类的回复 [38]、创建逼真的视频 [42] 以及合成新颖的程序 [47].

  • 分割领域的新任务:如 zero-shot 、few-shot、开放词汇语义分割、不同的提示分割
  • Training-free segmentation :无训练分割是近年来兴起的一个新兴研究领域。它旨在从预训练的FMs中提取分割知识,这标志着与已有的学习范式(如监督学习、半监督学习、弱监督学习和自监督学习)的不同。CLIP,Stable Diffusion 或DINO/DINOv2,最初不是为分割目的而设计,也可以很轻易得到 mask。
  • integrating LLMs into segmentation systems : 将大语言模型融入分割系统,参考图像分割 Referring Image Segmentation 和推理图像分割 Reasoning Image Segmentation
  • Generative models:特别是文本到图像的扩散模型

在这里插入图片描述

2. Background

分别将 X \mathcal{X} X Y \mathcal{Y} Y表示为输入空间和输出分割空间。图像分割解决方案旨在学习一个理想的映射函数 f f f f : X ↦ Y ,其中 X = I × P , Y = M × C f: \mathcal{X} \mapsto \mathcal{Y} ,其中\mathcal{X} = \mathcal{I} \times \mathcal{P},\mathcal{Y} = \mathcal{M} \times \mathcal{C} f:XY,其中X=I×PY=M×C 这里 f f f通常具体化为一个神经网络。输入空间 X \mathcal{X} X被分解为 I × P \mathcal{I} \times \mathcal{P} I×P,其中 I \mathcal{I} I代表图像域(仅包含单个图像 I I I ), P \mathcal{P} P指的是提示集合,在某些分割任务中会专门使用。输出空间 Y = M × C \mathcal{Y} = \mathcal{M} \times \mathcal{C} Y=M×C,它包含一组分割掩码 M \mathcal{M} M以及与这些掩码相关的语义类别词汇表 C \mathcal{C} C

  • 通用图像分割(GIS)输入空间仅包含图像,即 X ≡ I \mathcal{X} \equiv \mathcal{I} XI,这表明 P = ∅ \mathcal{P} = \emptyset P= 。根据测试词汇表 C t e s t \mathcal{C}_{test} Ctest是否包含训练词汇表 C t r a i n \mathcal{C}_{train} Ctrain中不存在的新类别,这三个任务在两种设置下进行研究:封闭词汇(即 C t r a i n ≡ C t e s t \mathcal{C}_{train} \equiv \mathcal{C}_{test} CtrainCtest )和开放词汇(即 C t r a i n ⊂ C t e s t \mathcal{C}_{train} \subset \mathcal{C}_{test} CtrainCtest )分割。

    • 语义分割: 图像中每个像素所属的语义类别,该类别来自 C \mathcal{C} C
    • 实例分割: 将属于同一语义类别的像素分组为单独的对象实例。
    • 全景分割: 结合了语义分割和实例分割,以预测每个像素的类别和实例标签,并且能够提供全面的场景解析。
  • 提示图像分割(PIS)额外纳入了一组提示 P \mathcal{P} P,用于指定要分割的目标。

    • 交互式分割旨在根据用户输入(通常通过点击、涂抹、绘制框或多边形提供,即 P = { click, scribble, box, polygon } \mathcal{P} = \{\text{click, scribble, box, polygon}\} P={click, scribble, box, polygon} )分割出特定对象或部分。
    • 指称分割 提取由文本短语所指的相应区域,即 P = { l i n g u i s t i c p h r a s e } \mathcal{P} = \{linguistic \space phrase\} P={linguistic phrase} 指的是文本提示。
    • 少样本分割(图 1f)旨在利用少量带注释的支持图像在给定查询图像中分割新对象,即 P = { ( i m a g e , m a s k ) } \mathcal{P} = \{(image, mask)\} P={(image,mask)} 指的是图像 - 掩码对的集合。

学习策略:
i)监督学习:现代图像分割方法通常以完全监督的方式进行学习,这需要一组训练图像及其期望的输出,即每个像素的注释。
ii)无监督学习:在没有明确标注监督的情况下,逼近f 的任务属于无监督学习。现有的大多数基于无监督学习的图像分割模型利用自监督技术,用从图像数据自动生成的伪标签来训练网络。
iii)弱监督学习:在这种情况下,监督信息可能不准确、不完整或不正确。对于不准确的监督,标签通常来自更容易标注的领域(如图像标签、边界框、涂抹 )。对于不完整的监督,仅为训练图像的一个子集提供标签。不准确的监督意味着虽然存在噪声,但为所有训练图像提供每个像素的注释。
iv)自由训练:除了上述策略之外,在基础模型时代,无需训练的分割受到了关注,它旨在直接从预训练的基础模型中提取分割信息,而无需进行任何模型训练。


基础模型:any model that is trained on broad data (generally using self-supervision at scale) that can be adapted to a wide range of downstream tasks

  1. Language Foundation Model 语言基础模型
  • Large Language Models (LLMs)
  • Multimodal Large Language Models (MLLMs) 将推理能力与处理非文本模态(如视觉、音频 )的能力相结合。
  1. Visual Foundation Model 视觉基础模型
  • Contrastive Language-Image Pre-training (CLIP). 对比学习 CLIP 和 ALIGN
  • Diffusion Models (DMs) 扩散模型
  • Self-Distillation with No Labels (DINO&DINOv2).
  • Segment Anything (SAM)

在这里插入图片描述

SEGMENTATION KNOWLEDGE EMERGES FROM FMS

  1. CLIP 学习的是整体视觉特征,位置信息相对不变。Mask-CLIP :修改 CLIP 的图像编码器:(1) 删除查询和关键嵌入层; (2) 将值嵌入层和最后一个线性层重新组合成两个各自的 1×1 卷积层。. GEM:计算 k q v 的各自通过矩阵乘法得到关联矩阵。 softmax ( q q ⊤ ) + softmax ( k k ⊤ ) + softmax ( v v ⊤ ) \text{softmax}(\mathbf{q}\mathbf{q}^\top)+\text{softmax}(\mathbf{k}\mathbf{k}^\top)+\text{softmax}(\mathbf{v}\mathbf{v}^\top) softmax(qq)+softmax(kk)+softmax(vv)
  2. DM :关键在于分割源自扩散模型中的交叉注意力图。
    m = CrossAttention ( q , k ) = softmax ( q k ⊤ / d ) m = \text{CrossAttention}(q, k)=\text{softmax}(qk^\top / \sqrt{d}) m=CrossAttention(q,k)=softmax(qk/d ) 。其中, q = Φ ( z t ) ∈ R h w × d q = \Phi(z_t) \in \mathbb{R}^{hw \times d} q=Φ(zt)Rhw×d k = Ψ ( e ) ∈ R N × d k = \Psi(e) \in \mathbb{R}^{N \times d} k=Ψ(e)RN×d Φ \Phi Φ Ψ \Psi Ψ 是 U - Net 中在隐空间进行去噪的线性层。 m ∈ R h w × N m \in \mathbb{R}^{hw \times N} mRhw×N 表示单个头的交叉注意力图。
  3. DINO : 在最后一层注意力头中,通过计算类别标记 [CLS] 的查询特征 q CLS \boldsymbol{q}_{\text{CLS}} qCLS 和图像块标记 [I] 的键特征 k I ⊤ \boldsymbol{k}^{\top}_{\text{I}} kI 的点积,得到亲和向量 α CLS = q CLS ⋅ k I ⊤ ∈ R 1 × M \boldsymbol{\alpha}_{\text{CLS}} = \boldsymbol{q}_{\text{CLS}} \cdot \boldsymbol{k}^{\top}_{\text{I}} \in \mathbb{R}^{1 \times M} αCLS=qCLSkIR1×M 。对每个注意力头 α CLS \boldsymbol{\alpha}_{\text{CLS}} αCLS 进行平均,对这个最终注意力图进行二值化处理(比如设置一个阈值,大于阈值的像素设为 1,小于阈值的设为 0 ),就可以得到分割掩码.一些工作还直接利用图像块标记之间的相似性来定位目标。

4. FOUNDATION MODEL BASED GIS

在这里插入图片描述

  1. 如何将 CLIP 中的预训练知识迁移到分割任务中?
  • Training free Semantic Segmentation :对自注意力模块稍作修改,从 CLIP 导出分割掩码是可行的。)利用 CLIP 文本编码器作为分类器来确定每个掩码的类别,从而实现语义分割,整个过程无需额外训练或微调。
  • CLIP 微调:遵循流行的 “预训练 - 微调” 范式,大量方法使用分割数据对 CLIP 进行微调,可分为全量微调或参数高效微调方法。全量微调方法需调整 CLIP 的整个视觉或文本编码器。防止对已见类别过拟合,它们都学习特定于图像的文本嵌入,以实现更准确的像素 - 文本对齐;
  • CLIP 作为零样本分类器:掩码分类方法(文献 [128]-[136] )通常遵循两阶段范式,即首先提取与类别无关的掩码提议,然后使用预训练的 CLIP 对提议进行分类。像素分类:像素分类方法(文献 [101]、[137]-[141] )使用 CLIP 识别像素。
  • 文本监督下的语义分割:TagAlign(文献 [147] )也专注于优化部分,并引入精细属性作为监督信号,实现密集的图像 - 文本对齐。
  • 知识蒸馏(KD):CLIP-DINOiser(文献 [153] )将 DINO 作为教师模型,引导 CLIP 学习类似 DINO 的、有利于分割的特征。
  1. 扩散模型(DMs):
  • Training free Semantic Segmentation:
  • 利用扩散模型潜在特征进行语义分割:多数用 T2I - DMs(主要是 SD )挖掘语义表示。
  • 去噪扩散模型的语义分割:将语义分割重新表述为去噪扩散过程,通过迭代去噪过程学习预测给定随机噪声 和图像编码器视觉特征条件下的噪声图
  • 利用 T2I - DMs 进行数据增强,而非直接生成合成掩码。
  1. DINO
  • 通过直接分组实现无监督分割: 直接利用 DINO 特征进行区域分组. 利用 k - means 聚类 或基于图的。
  • 通过自训练实现无监督语义分割: 尝试从 DINO 特征训练分割模型,自动从 DINO 特征中获取伪标签。
  1. SAM : 缺乏语义感知能力,但它具有通用且出色的分割能力。在弱监督场景下常被用于提升分割质量, 比如利用 SAM 对分割掩码进行后处理,以及将其用于零样本推理.
    CLIP 在语义理解方面表现出色,SAM 和 DINO 则专注于空间定位 。

5. FOUNDATION MODEL BASED PIS

在这里插入图片描述

  1. 交互式分割:SAM 引入多粒度交互式分割流程,每次用户交互时,期望的分割区域可能涉及附近不同部分的对象概念。通过将查询分割区域与 CLIP 的相应文本表示对齐来微调 SAM 。
  2. Referring Segmentation:
    基于 CLIP
  • Training-free : 文献 :Zero-shot referring image seg- mentation with global-local context features 和 Text augmented spatial aware zero-shot referring image segmentation 基于跨模态相似度识别目标掩码
  • 多模态知识迁移:常见方法是将 CLIP 特征与文本特征融合,训练文本到像素的对比学习,在每个阶段整合桥接模块。
  • 弱监督:TSEG 用 CLIP 计算文本目标相似度,通过多补丁分配机制指导分类目标。
    基于 DMs
  • Training-free :前景掩码优化问题。
  • 扩散特征:模型反转注意力图可直观得到初始视觉密集表示,用于生成最终分割掩码。
    基于 LLMs:实现推理分割。
    BERT因其简单性和实用性成为首选。多数方法设计融合模块,连接视觉编码器和解码器与 BERT。
    使用大型语言模型作为多模态统一处理工具,将图像和文本融合为统一特征空间,生成强大对话能力。
    增强视觉基础的方法广泛用于丰富分割先验知识,提供提示驱动框架连接 CLIP 和 SAM,构建提示机制,在编码器 - 解码器架构中结合 CLIP 和 SAM,采用简单高效的双编码器设计,分别适配 SAM 和 LLM 提取图像和文本特征,融合多模态特征进行分割预测。
  1. 小样本分割
  • 基于 CLIP 的特征表示,通过函数图像生成原型,计算查询原型距离
  • DMs 的内部表示对小样本分割有用,可将支持图像特定时间步的表示作为输入,解码为原始图像并输入掩码解码器。通过去噪扩散过程处理小样本分割,微调 SD 以明确生成掩码。
  • 利用 DINO/DINOv2 丰富的潜在表示来增强查询和支持图像的特征
  • 基于支持查询图像对的相似性生成候选点,突出查询图像的语义,用于指导目标导向提示。
  • 一些基于 LLM/MLLM 的通过指令设计解决 FSS 问题。
    上下文分割(ICS),即仅用少量示例预测分割掩码,无需特定微调。

6. OPEN ISSUE AND FUTURE DIRECTION

  1. 解释: 不同 FMs 在架构、数据和训练方式上有差异,但当前方法无法充分解释模型如何学习,尤其是像素与其他模态交互,需新方法理解像素在 FMs 中的作用,这对减少负面影响、拓展应用很关键。
  2. In-Context Segmentation. 上下文学习。
  3. 缓解基于 MLLMs 模型的物体幻觉问题:幻觉问题(模型生成不存在或错误物体描述)
  4. 强大且可扩展的数据引擎
  5. 扩散模型作为新数据源
  6. 高效图像分割模型:基于 FM 的分割模型计算量大、需精细调整,影响实际应用。
@article{zhou2024SegFMSurveytitle={Image Segmentation in Foundation Model Era: A Survey},author={Zhou, Tianfei and Xia, Wang and Zhang, Fei and Chang, Boyu and Wang, Wenguan and Yuan, Ye and Konukoglu, Ender and Cremers, Daniel},journal={arXiv preprint arXiv:2408.12957},year={2024},
}
http://www.xdnf.cn/news/239707.html

相关文章:

  • AI赋能烟草工艺革命:虫情监测步入智能化时代
  • MySQL中ROW_NUMBER() OVER的用法以及使用场景
  • 【Java函数式编程-58.1】深入理解Java中的Consumer函数式接口
  • 冠军之选,智启未来——解码威码逊的品牌传奇与冠军代言故事
  • 客户联络中心如何进行能力建设?
  • 【SAM2代码解析】数据集处理3--混合数据加载器(DataLoader)
  • 中国县级2m精度耕地分布数据(2020年)
  • 深度学习概述
  • Silo 科学数据工具库安装与使用指南
  • 【closerAI ComfyUI】开源社区炸锅!comfyUI原生支持Step1X-Edit 图像编辑!离简单免费高效又进一步
  • 关键词排名工具查到的位置和真实搜索差距大是什么原因?
  • SpringBoot优雅关机
  • MicroPython 开发ESP32应用教程 之 ADC及应用实例:电池电量检测并显示
  • HarmonyOS NEXT应用开发-Notification Kit(用户通知服务)notificationManager.cancelAll
  • ComfyUI
  • 国标GB28181平台EasyGBS未来研发方向在哪?
  • 数字中国开新篇,数智化为何需要新引擎
  • SLAM中的状态估计理论:从基础到前沿的完整解析
  • C++初阶:类和对象(二)
  • 机器学习|通过线性回归了解算法流程
  • spring 面试题
  • 智能 + 安全:婴幼儿托育管理实训基地标准化建设方案
  • 【LLM】MOE混合专家大模型综述(重要模块原理)
  • AI中常用概念的理解
  • w313安康学院新型冠状病毒肺炎疫情防控专题网站设计与实现
  • 【python实用小脚本-43】用Python自动发送生日祝福,让情感更高效
  • 架构进阶:72页集管IT基础设施蓝图设计方案【附全文阅读】
  • Nautilus侧栏没有桌面
  • 通过Yoast设置SEO标题不生效
  • OpenCV学习笔记(完)