当前位置：首页 > news >正文

视觉语言模型在视觉任务上的研究综述

news 2025/7/31 5:20:53

论文链接：arxiv.org/pdf/2504.09480

摘要

摘要——视觉-语言模型（VLM）已在开放词汇（OV）目标检测与分割任务中得到广泛应用。尽管它们在与开放词汇相关的任务中展现出良好的性能，但其在传统视觉任务中的有效性迄今尚未得到系统评估。

在本研究中，我们对基于VLM的检测与分割方法进行了系统综述，将VLM视为基础模型，并首次在多个下游任务中进行全面评估：

1）评估涵盖八种检测场景（闭集检测、领域自适应、密集目标检测等）和八种分割场景（少样本分割、开放世界分割、小目标分割等），揭示了不同VLM架构在各类任务中的性能优势与局限性；

2）在检测任务方面，我们在三种微调粒度下对VLM进行评估：零样本预测、视觉微调和文本提示，进一步分析不同的微调策略在不同任务下的性能影响；

3）基于实验结果，我们深入分析了任务特性、模型架构与训练方法之间的关联，为未来VLM的设计提供有益见解；

4）我们相信，本研究对于从事计算机视觉、多模态学习与视觉基础模型领域的模式识别专家具有重要参考价值，不仅帮助其了解相关问题，还使其熟悉当前研究进展，并为未来研究提供有前景的方向

综述和评估相关的项目已在 https://github.com/better-chao/perceptual_abilities_evaluation 上建立。

什么是开放词汇？指在某个任务或系统中，模型可以识别、理解和处理的词汇范围不限于训练阶段所使用的类别标签，而是可以扩展到未见过的、新的或非常见的类别。

一、引言

随着人工智能技术的迅速发展，视觉-语言模型（VLMs）已成为多模态学习中的重要成果，在计算机视觉和自然语言处理领域引起了广泛关注。这一进展受到多个关键因素的推动：首先，模型架构的不断迭代发展，从传统的卷积神经网络（CNNs）[1]–[4]到基于Transformer的架构[5]–[8]，再到大规模预训练模型[9]、[10]，为提升VLM性能奠定了坚实基础。其次，计算能力的显著进步，特别是GPU和TPU的快速发展，使得大规模数据和复杂模型的处理成为可能。此外，数据可用性的指数级增长也促进了VLM的发展，数据集规模从有限的小型数据扩展到大规模的视觉-语言数据集，为模型训练提供了丰富的图像-文本对。再者，现实世界复杂任务需求的增加，尤其是从传统的封闭集检测向需要多样化能力的开放集场景的转变，也进一步推动了学术界对多模态模型的研究。在此背景下，VLMs从单一模态方法演进为先进的多模态融合框架，展现出显著优势。通过视觉与文本特征的对齐，VLMs能够有效利用多样化的数据形式，增强对新类别任务的泛化能力，并在目标检测和分割任务中表现出色。

模型架构的迭代：CNNs----> Transformer ---> Large Pre-train Model；

计算能力的提升；

可用数据集的增长；

复杂任务需求的增加。

以上四点促进了VLMs的发展。

视觉是解释环境信息的核心感知通道，因此有必要系统评估VLM在通过多模态理解提升传统视觉任务方面的能力。目标检测[11]和图像分割[12]构成了计算机视觉中的基础任务，是感知和场景理解的重要组成部分。这些技术为多个领域的实际应用提供了支撑，包括自动驾驶[13]、医学影像[14] [15] [16]和智能机器人[14]等。当前的VLM本质上通过视觉与文本特征的对齐来实现其广泛而强大的能力。

在目标检测任务中，基于VLM的检测方法通过对比学习方式将视觉特征与文本描述对齐，例如GLIP[17]和GroundingDINO[18]，这些模型通过在大规模数据集（如CC12M[19]、YFCC1M[20]）上进行预训练，实现了对未见过类别的泛化能力。

在分割任务中，近期的研究重点是将VLM的全局多模态对齐能力扩展到细粒度的对齐任务，具体包括区域-文本[21]和像素-文本对齐[22]。这些进展利用多样化的监督策略，促进了像素级分割任务中的密集预测。

从本质上讲，这些模型延续了CLIP[10]等预训练方法的概念；然而，CLIP作为一个分类模型，其对齐机制和原理在不同VLM中有所差异。例如，一些模型采用对比学习实现特征对齐，而另一些模型则使用交叉注意力进行特征融合。值得注意的是，当前的VLM主要在开放词汇（OV）任务中表现出色，但在特定任务中的泛化能力仍需进一步探索。

由于VLM的潜力和强大能力，许多研究工作正在探索如何将其应用于下游任务，包括目标检测、语义分割等。例如，DA-Pro[23]在RegionCLIP[24]的基础上，通过为目标类别动态生成领域相关的检测头，显著提升了跨领域检测性能。COUNTGD[25]通过在GroundingDINO[18]中增强文本提示，结合视觉示例，实现了首个开放世界计数模型。然而，现有研究及相关综述主要关注开放词汇设置下的检测和分割任务，往往忽略了现实场景中的复杂性和挑战。因此，尚未对广泛的视觉下游任务进行全面评估。

如图1所示，为了全面评估VLM模型在不同场景下的性能，我们设计了8种不同的检测任务设置，涵盖了传统的封闭集检测任务、开放词汇相关任务，以及更贴近现实的域适应场景和密集目标场景。对于分割任务，我们也设置了8种不同设置，包括零样本评估、开放世界语义分割任务，以及小目标和密集分割任务。

在基于VLM的检测任务中，如图2所示，我们采用三种细粒度级别的微调方法来评估模型性能：零预测、视觉微调和文本提示。这三种方法在计算成本与性能之间的权衡不同，适用于各类下游任务。

零预测（Zero Prediction）：该方法直接将预训练的VLM模型应用于下游数据集，不进行任何微调。它依赖于模型固有的泛化能力，适用于需要快速部署的场景。形式上，对于预训练模型fθ(x, t)，其中x表示图像，t表示文本提示，零预测直接将fθ(x, t)应用于下游数据集。

视觉微调（Visual Fine-tuning）：该方法在下游视觉任务上对VLM的视觉分支进行微调，同时保持文本分支固定。通过适应下游数据分布，使模型能够快速对齐到特定任务。然而，该方法的微调成本相对较高。形式上，如果模型由视觉编码器Ev和文本编码器Et组成，则视觉微调仅修改Ev，保持Et固定。

文本提示（Text Prompt）：该方法专注于仅微调文本提示，通过最小调整使其适应下游任务。具体来说，它在文本编码过程中引入可学习参数，实现低计算开销的任务特定调整。在某些情况下，该方法甚至可以在特定下游任务上超越视觉微调的性能。形式上，对于文本提示t = [t1, t2, ..., tn]，文本提示引入可学习参数∆t，得到调整后的提示t′ = t + ∆t。

与局限于固定预定义类别的传统语义分割模型[26]相比，基于VLM的分割方法[22]具有实现任意类别的开放词汇分割的潜力。然而，一个根本性问题是：当前模型是否真正实现了“分割万物”的承诺？在本研究中，我们通过多样化的基准数据集，对多个领域中的VLM分割能力进行了全面评估。通过广泛的实证研究和深入分析，我们系统地探讨了当前最先进的基于VLM的分割模型[22]、[27]、[28]的优势与局限性。我们的发现为推进更鲁棒和通用的VLM分割模型的发展提供了宝贵的见解和明确的研究方向。

在本研究中，我们对视觉-语言模型（VLMs）在密集预测视觉任务中的应用进行了全面调查，并总结了以下三个主要贡献：

开创性评估：本文首次将VLMs视为“基础模型”，并在广泛的下游视觉任务中进行大规模评估。通过这一独特视角，我们系统展示了VLMs在不同视觉任务中的表现，为理解其潜力和局限性提供了有价值的基准。

微调策略的细粒度分析：我们系统研究了三种微调方法——零预测、视觉微调和文本提示——对下游任务的影响，特别关注分割任务。这一深入分析揭示了不同微调策略在实际应用中的优劣势，为模型优化提供了关键见解。

机制层面的深入分析：从训练方法和模型架构的角度出发，我们探讨了这些因素如何影响模型在下游任务中的表现。本研究超越了表层应用，深入挖掘了VLMs的内在机制，为未来模型设计和改进提供了支持。

总之，我们的研究不仅提供了对VLMs的全面评估和深入分析，还为该领域的发展奠定了坚实基础，推动目标检测和分割任务的进一步突破与进步。

本文其余部分组织如下：第二节回顾了基于VLM的目标检测和图像分割相关工作；第三和第四节分别呈现了检测和分割任务的评估结果及相应分析；第五节展望了VLM发展的潜在方向；最后，第六节总结了全文并概括了本研究的主要贡献。

二、背景

A. 基于视觉语言模型（VLM）的检测方法

尽管传统的目标检测方法在监督学习范式下取得了成功，但在开放世界场景中检测任意目标时仍面临挑战。基于视觉语言的检测方法，也称为开放词汇目标检测（OVD），为应对这一挑战提供了一个有前景的解决方案。通过引入文本模态并利用大规模多模态数据集的预训练，OVD 实现了视觉和文本模态的对齐，从而能够根据任意文本输入检测出相应的目标。在基于 VLM 的检测方法中，一些方法通过收集大规模数据集进行预训练，以获得出色的零样本性能。我们将这些方法称为“大规模预训练方法”。

同时，许多方法为特定的开放词汇数据集（如 OV-COCO 或 OV-LVIS）设计了学习策略，包括知识蒸馏、伪标签生成、多任务学习、提示学习以及大语言模型辅助等，这些方法统称为“学习策略方法”。

大规模预训练方法和学习策略方法的基本细节分别列于表 I 和表 II 中。

表1：开放词汇目标检测模型的大规模预训练方法总结

方法	图像编码器	文本编码器	训练数据集	贡献	发表年份
GLIP [17] [代码]	Swin Transformer	BERT	O365、OI、VG、ImageNetBoxes [1]、GoldG [17]、CC12M、SBU Caption	提出一个统一的框架，用于目标检测和短语定位的预训练，实现图像和语言编码器之间的深度融合。	CVPR’22
RegionCLIP [24] [代码]	CLIP-ResNet50	CLIP-text	CC3M	将 CLIP 扩展到学习区域级视觉表示，实现图像区域和文本概念之间的细粒度对齐。	CVPR’22
PB-OVD [34] [代码]	ResNet50	CLIP-text	COCO Caption [35]、VG、SBU Caption	提出利用视觉语言模型从大规模图像-文本对中生成伪标签，用于训练目标检测器。	ECCV’22
DetCLIP [36]	Swin Transformer	FILIP-text	O365、GoldG、YFCC1M	提出一种并行视觉-概念预训练方法，用于开放世界目标检测，利用概念词典增强知识表示。	NeurIPS’22
OWL-ViT [37] [代码]	修改版 CLIP-ViT Transformer	-	O365、VG	使用修改后的视觉Transformer进行图像-文本预训练和端到端检测微调，用于开放词汇目标检测。	ECCV’22
OWLv2 [38] [代码]	修改版 CLIP-ViT Transformer	-	WebLI [39]	通过自训练扩展检测数据，使用现有检测器在图像-文本对上生成伪框标注。	NeurIPS’23
DetCLIPv2 [40]	Swin Transformer	FILIP-text	O365、GoldG、CC3M、CC12M	提出一个高效且可扩展的开放词汇目标检测框架，学习细粒度的词-区域对齐。	CVPR’23
DetCLIPv3 [41]	Swin Transformer	FILIP-text	O365、V3Det [42]、GoldG、GranuCap50M [41]	提出集成一个生成式描述头，并利用自动标注流水线提供多粒度目标标签。	CVPR’24
Grounding DINO [18] [代码]	Swin Transformer	BERT	O365、OpenImage、GoldG、Cap4M [17]、COCO、RefC	通过语言和视觉的深度融合，集成基于Transformer的检测器和接地式预训练。	ECCV’24
YOLO-World [43] [代码]	CSPDarkNet	CLIP-text	O365、GoldG、CC3M	提出增强版 YOLO 检测器，通过视觉-语言建模和大规模数据集预训练实现开放词汇能力。	CVPR’24
OV-DINO [44] [代码]	Swin Transformer	BERT	O365、GoldG、CC1M	提出一个统一的方法，整合多样化数据进行端到端预训练，增强区域级跨模态融合和对齐。	Arxiv’24

表2：基于学习策略的开放词汇目标检测模型方法总结。表格中的“训练数据集”列中的数字表示不同的实验设置。

方法	图像编码器	文本编码器	数据集	贡献	发表时间
Detic [45] [代码]	ResNet50	CLIP-文本	LVIS-base, IN-L, CC	提出在图像分类数据上训练检测器分类器，以实现广泛概念的检测。	ECCV’22
DetPro [46] [代码]	ResNet50	CLIP-文本	LVIS-base	提出一种用于学习连续提示表示的开放词汇目标检测新方法。	CVPR’22
OV-DETR [47] [代码]	ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	提出基于OV DETR的检测器，通过CLIP的二值匹配机制使用类别名称进行目标检测。	ECCV’22
ViLD [48] [代码]	ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	提出通过对齐学生和教师嵌入，从预训练的视觉-语言模型（VLM）中提取知识的方法。	ICLR’22
HierKD [49] [代码]	ResNet50	CLIP-文本	COCO-base	提出一种分层的视觉-语言知识蒸馏方法，结合全局和实例级别的蒸馏。	CVPR’22
VL-PLM [50] [代码]	ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	提出VL-PLM框架，利用VLM生成新类别的伪标签，用于训练开放词汇检测器。	ECCV’22
PromptDet [51] [代码]	ResNet50	CLIP-文本	LVIS-base, LAION-novel	提出区域提示学习，将文本嵌入与视觉目标特征对齐，并使用自训练框架在无手动标注的情况下扩展检测。	ECCV’22
VLDet [52] [代码]	ResNet50	CLIP-文本	1. COCO-base, COCO Caption<br>2. LVIS-base, CC3M	通过将对象-语言对齐表述为图像区域特征与词嵌入之间的集合匹配问题来学习。	ICLR’23
BARON [53] [代码]	ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	提出一种方法，通过对齐“区域包”的嵌入来增强开放词汇目标检测。	CVPR’23
CoDet [54] [代码]	ResNet50	CLIP-文本	1. COCO-base, COCO Caption<br>2. LVIS-base, CC3M	将区域-词对齐重新表述为共现对象发现问题，利用视觉相似性发现并对齐具有共享概念的对象。	NeurIPS’23
CORA [55] [代码]	CLIP-ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	提出一种类似DETR的框架，使用区域提示调整CLIP，以解决整体到区域的分布差异，并通过锚点预匹配改进对象定位。	CVPR’23
DK-DETR [56] [代码]	ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	提出一种框架，从VLM中提取语义和关系知识，并将其蒸馏到类似DETR的检测器中。	ICCV’23
DST-Det [57] [代码]	ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base<br>3. V3-Det-base	提出一种策略，利用预训练VLM的零样本分类能力生成新类别的伪标签。	Arxiv’23
EdaDet [58]	ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	提出早期密集对齐（EDA），通过密集级别的对齐学习提高基础类别到新类别的泛化能力。	ICCV’23
F-VLM [59] [代码]	CLIP-ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	通过使用冻结的视觉-语言模型并仅微调检测头来简化训练。	ICLR’23
MM-OVOD [60] [代码]	ResNet50	CLIP-文本	LVIS-base, IN-L	提出使用LLM生成基于文本的分类器，采用视觉聚合器处理图像示例，并融合两者创建多模态分类器。	ICML’23
OADP [61] [代码]	ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	提出对象感知知识提取模块和蒸馏金字塔机制，用于精确的对象知识提取和全面的全局与块级蒸馏。	CVPR’23
Prompt-OVD [62]	ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	提出使用CLIP类嵌入作为提示，并结合基于RoI的掩码注意力和RoI剪枝，以最小的计算成本提高检测性能。	Arxiv’23
RO-ViT [63] [代码]	ViT	Transformer预训练：ALIGN	1. COCO-base<br>2. LVIS-base	提出随机裁剪和调整位置嵌入区域以对齐区域级检测，并将softmax交叉熵替换为焦点损失。	CVPR’23
SAS-Det [64] [代码]	CLIP-ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	提出拆分与融合头结构，分离开放和封闭分支以进行互补学习，减少噪声监督。	CVPR’24
CLIPSELF [65] [代码]	CLIP-ViT	CLIP-文本	1. COCO base<br>2. LVIS base	通过对CLIP ViT的密集特征图进行自蒸馏，将其图像级识别适配到局部区域。	ICLR’24
LP-OVOD [66] [代码]	ResNet50	CLIP-文本	1. COCO-base<br>2. LVIS-base	通过训练一个Sigmoid线性分类器，丢弃低质量的边界框，该分类器基于从新类文本中检索的高相关区域提案。	WACV’24
LAMI-DETR [67] [代码]	CLIP-ConvNext	CLIP-文本	LVIS base	提出一种方法，利用视觉概念之间的关系，在训练中采样负类别，并在推理中解决混淆类别。	ECCV’24

基于 VLM 的检测方法的时间线如图 3 所示:

各类方法的示意图如图 4 所示:

1) 大规模预训练方法

近年来，大规模数据预训练方法在表示学习方面展现出强大的能力，同样适用于开放词汇检测。通过对大规模数据进行预训练，模型可以学习到丰富的视觉和语义特征，有助于提升未知类别的泛化能力。

CLIP 通过在大量图像-文本对上进行预训练，有效学习了图像级表示，在零样本分类任务中表现出色。然而，某些细粒度视觉任务需要区域级表示。

GLIP 将目标检测任务重构为短语定位任务，除了图像输入外，还将所有候选类别作为文本输入链接起来。这样，候选区域分类问题被转化为候选区域与词语之间的对齐问题，从而统一了检测与短语定位任务。

RegionCLIP 设计用于将 CLIP 扩展至学习区域级视觉表示，实现图像区域与文本概念之间的细粒度对齐。

PB-OVD 通过处理图像的激活图，自动从大规模图像-字幕对中获取多样目标的伪边界框。

DetCLIP 提出了一种并行概念表示方法，以更好地利用异构数据，编码不同形式的检测数据、定位数据和图像数据，以最大限度地利用大规模数据集进行预训练。

DetCLIP v2 优化了 DetCLIP 的训练过程，在使用 13 倍更多图像-文本对的同时，训练时间仅与原方法相当。

DetCLIP v3 利用视觉大语言模型构建自动标注数据管道，优化图像-文本对的标注，从而为预训练提供更高质量的数据。

GroundingDINO 在图像和文本编码阶段、查询选择阶段以及最终解码阶段中引入了跨模态融合，以实现更强大的性能。

YOLO-World 提出了视觉语言路径聚合网络，使用文本引导的 CSPLayer 将文本信息注入图像特征，并通过图像池化注意力机制增强图像感知的文本嵌入。

OV-DINO 引入了统一数据整合管道，将不同数据源统一为以检测为中心的数据形式，消除伪标签带来的数据噪声。

2) 基于知识蒸馏的方法

从预训练的视觉语言模型（VLMs）的视觉编码器中蒸馏知识，使得开放词汇检测模型更容易与VLMs的文本编码器生成的文本嵌入建立关联，从而有效提升识别未见类别的能力。

ViLD 首次通过将提议区域的特征与利用VLM图像编码器生成的图像嵌入对齐，将VLM的知识蒸馏到两阶段检测器Mask R-CNN 中。

HierKD 在单阶段检测器上应用知识蒸馏，并引入了全局阶段蒸馏方法，该方法将图像描述的文本特征与全局图像特征进行对齐。

DK-DETR 选择Deformable DETR作为学生模型，并将检测器与VLM之间的特征对齐视为一个伪分类问题，缩小属于同一物体的特征距离，拉大属于不同物体的特征距离。

OADP 分析了在切割候选区域过程中全面性和纯净性的问题，以及在知识蒸馏过程中对全局场景理解的忽视，并通过多尺度蒸馏弥补了这一不足。

BARON 将一组区域的嵌入而非单个区域的嵌入与利用VLM文本编码器获得的句子中的词嵌入进行对齐。

3) 基于伪标签生成的方法

除了利用视觉语言模型（VLMs）进行知识蒸馏外，利用其强大的跨模态表示能力为图像生成伪标签也是开放词汇检测中的一种有效方法。通过自动为图像中的未标注区域生成标签，VLMs可以在无监督或弱监督的训练环境中增强训练数据，从而提升模型识别未知类别的能力。

这种方法不仅减少了对手工标注的依赖，还能在大规模数据集上快速扩展模型的识别范围。

Zhao 等人 [50] 提出了一种更简单的伪标签生成方法，通过直接应用类别无关的RPN网络提取候选区域，并利用VLM对这些区域进行分类。为了确保生成的伪标签具有高质量，他们应用了重复的RoI操作，并结合RPN得分和VLM的预测结果进行过滤。

除了利用预训练的VLMs外，基于教师-学生架构的自训练方法也是伪标签生成和利用的另一种广泛应用方法。Zhao 等人 [64] 提出了SASDet，其中教师网络生成伪标签来训练学生网络，而学生网络则定期更新教师网络。

除了两阶段的伪标签生成方法外，Xu 等人 [57] 提出了一种端到端的训练框架DST-Det，该框架在训练过程中动态地利用VLM生成伪标签。在RPN阶段，这些区域被视为前景物体，而在最终的分类阶段，相应的新型类别则直接添加到分类目标中。

4）基于多任务学习的方法：与其他任务联合训练开放词汇表检测不仅丰富了训练数据，还引入了额外的任务约束，提高了模型的泛化能力。多任务学习实现了跨任务的知识共享，使模型能够利用互补信息来提升对未知类别的识别性能。由于目标检测本质上涉及定位和分类，将检测和分类任务结合起来是一种直观的方法。Zhou 等人 [45] 提出了 Detic，该方法对分类数据应用图像级监督，将其应用于最大的候选区域，同时对检测数据遵循标准检测损失。通过利用分类数据集的广泛词汇，Detic 显著提升了开放词汇表检测的性能，而无需引入额外的损失。检测与分割的联合训练也已被探索，尽管之前的工作（如 Mask R-CNN [69]）仅限于具有对齐边界框和掩码注释的闭集模型。Zhang 等人 [70] 提出了 OpenSeeD 来解决开放词汇表检测和分割的挑战。OpenSeeD 将解码器查询分为前景和背景查询，实现前景检测和背景分割。它还引入了条件掩码解码，从分割数据中学习掩码并为检测数据生成掩码。这种统一框架通过结合数据和任务监督，提升了开放词汇表检测和分割的性能。此外，Long 等人 [71] 提出了 CapDet，该方法将检测与密集字幕生成联合训练，其中检测损失和字幕生成损失共同约束训练过程。这种方法受益于字幕数据中的丰富语言概念，并允许模型预测无类别标签，实现真正的开放词汇表检测。

5）基于提示学习的方法

提示学习是一种有效技术，用于将基础模型适应于不同领域。通过在基础模型中引入可学习的提示，可以更容易地将模型的知识转移到下游任务中。

这种方法也被应用于开放词汇表检测，其中提示引导模型在未知类别上实现更强的泛化能力。

Du 等人 [46] 提出了 DetPro，该方法引入了一组共享的可学习参数，并将其前置到每个类别名称的嵌入中。对于给定图像，采用类别无关的 RPN 提取候选区域。正样本候选区域被引导与对应真实类别的嵌入更加对齐，而负样本候选区域则被推离所有类别嵌入，使模型能够有效学习泛化的提示。

同样，PromptDet [51] 在文本侧引入了提示，但侧重于提高语义清晰度和灵活性。该方法在每个类别名称后附加描述性短语以减少歧义，并在生成的文本嵌入中引入可学习参数。此外，它还利用网络爬取的图像-文本对来扩展词汇表，包含新类别，并允许学习的提示通过迭代优化以获得更好的性能。

除了在文本侧添加可学习提示，Wu 等人 [55] 提出了 CORA，这是一种基于 DETR 的检测器，在图像侧引入了可学习提示，以适应 CLIP 进行开放词汇表检测。它包含两个关键模块：区域提示模块，用于对齐 CLIP 图像编码器与区域级特征，以解决分布不匹配问题；锚框预匹配模块，用于将对象查询与动态锚框相关联，以实现类别感知的回归。

6）基于大语言模型的方法

随着大语言模型（LLMs）在各种任务中展现出卓越的泛化和推理能力，利用 LLMs 进行辅助训练已成为开放词汇表检测的一个重要方向。LLMs 的广泛知识库和跨模态理解能力为开放词汇表检测提供了强有力的支持，尤其是在注释有限的情况下，使模型能够更好地识别未见类别并处理复杂场景。

Kaul 等人 [60] 提出了一种开放词汇表检测器，其多模态分类头支持通过文本、图像或其组合进行类别描述。文本描述通过 GPT-3 [72] 生成，创建每个类别的多种丰富描述，并将其平均为文本特征。图像描述通过对特定类别的图像进行 VLM 图像编码器处理，并通过 Transformer 聚合其特征获得。文本和图像特征随后通过加权平均融合，以实现基于多模态输入的检测。

同样，Jin 等人 [73] 提出了 DVDet，该方法通过为每个类别生成细粒度描述来增强检测。候选区域计算与固定数量描述符的相似性，并在训练过程中动态优化描述符，保留常用描述符并丢弃很少使用的描述符。对于容易混淆的类别，LLM 生成区分性描述符并添加以优化分类。

为了解决 CLIP 文本空间缺乏详细文本和视觉信息且容易过拟合基础类别的问题，Du 等人 [67] 提出了 LaMIDETR。该方法使用 GPT-3.5 [73] 生成丰富的视觉描述，将类别名称转换为全面的视觉概念。这些概念通过 T5 [74] 分组，并在训练过程中对不同组的类别进行采样，以鼓励学习泛化的前景特征。在推理过程中，视觉描述有助于区分容易混淆的类别，从而提升未见对象的性能。

在六种基于 VLM 的检测方法中，大规模预训练方法利用多种数据集进行预训练，通常在不同的检测任务中获得更好的泛化能力。同时，其他五种方法可以统称为基于学习策略的方法，它们专注于学习特定的开放词汇表数据集，如 OV-COCO 和 OVLVIS。因此，我们评估了大规模预训练方法和基于学习策略的方法在开放词汇表相关检测任务上的表现，并进一步评估了大规模预训练方法在更多检测任务中的性能。

B. 基于视觉语言模型（VLM）的分割方法（略）

三、基于VLM的检测任务

A. 通用闭集评估

闭集目标检测仍然是目标检测中最广泛采用的评估范式，其中训练和测试均在相同的预定义类别集合上进行，从而能够有效评估模型的基本检测能力。尽管在大规模数据集上训练的视觉语言模型（VLMs）在常见目标检测基准上表现出强大的零样本性能[96]–[98]，但其闭集性能高度依赖于预训练数据的组成，这引发了对直接比较公平性的担忧。因此，我们研究了VLMs在微调（视觉和文本提示微调）后的检测能力，以评估其作为基础检测模型的潜力。作为对比，我们还评估了传统检测模型的性能，作为参考基线。

如表IV所示，我们得出以下结论：
(1) 随着架构的演进，传统方法的性能逐步提升。Faster R-CNN [11]作为传统两阶段检测范式的代表，建立了一个基础的目标检测框架。然而，其依赖于基于区域的特征提取和提议生成，限制了其在具有挑战性的数据集（例如LVIS [98]）上的性能。YOLO-v8 [99]遵循单阶段检测范式，经过不断迭代，持续优于Faster R-CNN。Dynamic Head [101]则引入了动态注意力机制，表现出优于YOLO-v8的性能。DINO [100]通过完全采用基于Transformer的端到端架构，彻底颠覆了传统范式，在所有数据集上实现了最高性能，突显了全局特征表达和基于Transformer的自适应建模在提升检测能力中的关键作用。

(2) 开放词汇检测（OVD）方法的性能也高度依赖于底层检测器架构。RegionCLIP [24]和PB-OVD [34]基于传统的Faster RCNN [11]架构，由于其相对过时的特征提取框架，在复杂数据集上表现欠佳。GLIP [17]建立在Dynamic Head [101]之上，通过统一训练集成了视觉-文本对齐，表现出强大的闭集性能。YOLO-World [43]基于YOLO-v8 [99]，保留了单阶段检测器的计算效率，尽管其性能略逊于GLIP。Grounding-DINO [18]和OV-DINO [44]在基于Transformer的DINO [100]架构基础上引入了深度视觉-文本交互机制，显著增强了特征对齐和多模态语义建模。这些模型在复杂数据集上实现了最佳闭集性能，验证了底层架构的重要性。

(3) 视觉微调优于文本提示微调，尤其是在COCO [96]和LVIS [98]等更复杂的数据集上。视觉微调的有效性在于其对视觉表示的直接优化，能够更好地捕捉目标的形状、纹理和局部细节。视觉表示可区分性的增强在长尾分布数据集LVIS [98]上带来了更显著的性能提升。文本微调主要改善语义对齐和泛化能力，在简单数据集（例如VOC [97]）中提供的收益有限。这些观察结果表明，视觉特征建模仍然是性能提升的主要驱动力，而文本优化则是对视觉优化的有益补充。

B. 通用开放词汇评估

通用开放词汇检测任务旨在评估模型检测不常见类别的能力，这在实际应用中非常重要。COCO [96] 和 LVIS [98] 检测数据集是开放词汇检测中常用的基准数据集。在评估过程中，COCO 的类别被划分为“基础”类别和“新颖”类别，其中基础类别比新颖类别更容易遇到。同时，LVIS 的基础类别被标记为“常见”和“频繁”，其新颖类别被标记为“稀有”。LVIS minival 与 LVIS 共享相同的类别，但使用了 LVIS 测试集的一个子集作为其测试集。

对于大规模预训练方法，在零样本预测设置下首先评估其原始开放词汇性能。随后，这些方法在仅包含基础类别的数据集训练集上进行视觉微调。

对于基于学习策略的方法，在训练过程中可以访问目标数据集的图像，我们直接报告官方模型的性能。

大规模预训练方法和基于学习策略方法的结果分别如表 V 和表 VI 所示。

从实验结果中，我们得出以下结论：
(1) OV-DINO 和 Grounding-DINO 在大规模预训练方法中实现了领先的开放词汇性能，这表明 DINO 检测框架在开放词汇检测任务中也表现出显著优势。另一方面，YOLO-World 在保持实时推理速度的同时也展现了具有竞争力的性能，展示了 YOLO 框架在开放词汇检测任务中的潜力。在基于学习策略的方法中，LAMI-DETR 在开放词汇检测准确性方面表现最佳，这归功于使用大语言模型对潜在混淆类别进行聚类，并设计了专门的损失函数以区分容易混淆的类别。

(2) 对比 OV-COCO 基准上的性能，大规模预训练方法明显优于基于学习策略的方法。例如，OV-DINO 的 APnovel 达到了 76.2%，远高于 DST-Det 的 46.7%。然而，在 OV-LVIS 基准上，这两类方法之间的性能差距并不显著。我们认为这是因为 COCO 数据集中的新颖类别相对较为常见，且在第一类方法的预训练数据集中频繁出现。相反，LVIS 中的新颖类别更加稀有，这更有利于能够利用 LVIS 数据的基于学习策略的方法。

(3) 将大规模预训练方法在表 V 中的零样本预测和视觉微调性能进行对比，可以发现视觉微调显著提高了大规模预训练方法在基础类别上的准确率，但部分方法在新颖类别上的性能可能下降。这表明，仅仅在基础类别上进行视觉微调可能导致灾难性遗忘，影响模型的泛化性能。

什么是灾难性遗忘？

指的是模型在学习新任务或新数据时，突然且显著地遗忘之前已经学到的知识。

模型在视觉微调阶段只使用了“基础类别”的数据进行训练。这时候，模型会专注于提升对这些基础类别的识别能力，但却可能“忘记”了之前在大规模预训练中已经学到的新颖类别（稀有类别）的知识，导致在新颖类别上的性能下降。

如何环节灾难性遗忘？

知识蒸馏：在微调时，用原始模型的输出作为监督信号，帮助新模型保留旧知识。
正则化方法：在损失函数中加入对重要参数的约束，防止参数发生剧烈变化。
记忆回放：在训练新任务时，同时保留一部分旧任务的数据，帮助模型持续学习。
参数隔离：为不同任务分配不同的模型参数，避免参数冲突。
持续学习策略：专门设计用于应对连续学习任务的算法，如Elastic Weight Consolidation (EWC)、Learning without Forgetting (LwF)等。

(4) 预训练数据集的规模是影响大规模预训练方法在开放词汇检测中性能的另一个因素。更大的预训练数据集可以为模型提供包含更多稀有语义类别的样本，从而使模型获得更好的开放词汇检测能力。例如，OV-DINO (A) 是在 Object365 数据集上预训练的，而 OV-DINO (B) 则是在 Object365 和 GoldG 数据集上共同预训练的，在 LVIS minival 数据集的 APr 指标上获得了更高的性能。

C. 开放词汇泛化评估

开放词汇泛化评估通常被第二类模型所采用。该评估方法用于衡量模型在某一单一数据集上完成开放词汇微调后，在其他数据集上的泛化能力，这不仅包括领域泛化能力，也包括类别泛化能力。

泛化能力在多个设置下进行评估，例如在COCO数据集的基础类别上进行微调后，分别在PASCAL VOC数据集 [103]、LVIS数据集 [98] 和Objects365数据集 [29] 上进行测试。

需要注意的是，用于测试的数据集不能参与检测器的预训练或微调过程。在未见数据集上的检测准确率反映了开放词汇检测器在实际应用中的可用性。

基于大规模预训练的方法和基于学习策略的方法的实验结果如表VII所示。

从表中的实验结果可以得出以下结论：

（1）基于大规模预训练的方法的开放词汇泛化能力普遍高于基于学习策略的方法。例如，OV-DINO作为基于大规模预训练方法的代表，在LVIS→COCO设置下取得了47.9%的AP值，而第二类方法中准确率最高的LAMIDETR仅取得42.8%。这表明更大的预训练数据集包含了来自不同领域的更多数据，这些数据携带了更丰富的语义类别，能够有效提升模型的领域和类别泛化能力，从而更容易实现更好的泛化性能。

（2）当模型从具有更多类别的数据集泛化到类别较少的简单数据集时（例如COCO→VOC），基于视觉语言模型（VLM）的检测器通常可以获得较高的准确率。相反，当模型从类别较少的数据集泛化到类别更多的数据集时（例如COCO→Objects365），则可能出现较低的准确率表现。这一对比表明，使用语义更丰富的数据集进行预训练可以显著提升模型的泛化能力。

查看全文

http://www.xdnf.cn/news/1211653.html