当前位置：首页 > java >正文

论文精读Lami-Detr：Open-Vocabulary Detection with Language Model Instruction

java 2025/6/17 4:15:08

文章目录

前言
1、出发点
2、方法
- 2.1.训练阶段
- - 2.1.1.文本特征提取器
  - 2.1.2.图像特征提取器
- 2.2.推理阶段
3、实验
总结

前言

本文介绍篇来自北航的ECCV2024的开放词汇论文：Lami-detr，开源地址。

1、出发点

现有的开放词汇方法大多都借助了VLM比如Clip的零样本泛化能力，但这会存在两个问题：1）Clip的提取的文本特征缺少具有深度的语言描述和视觉知识；2）容易过度拟合到训练集类别上，泛化到新检测类别时效果不好。
为了说明上述两个问题，作者用一副图进行说明：
在这里插入图片描述
1）图a中，直接将类别名称喂入CLip得到特征向量，并进行聚类：发现将"fireboat"和“fireweed”聚类到一起，说明clip追求了单词字母上相似性，忽视了语义信息，显然对泛化不好；
2）图b中，将类别名称喂给T5语言模型得到嵌入向量，并进行聚类：发现将外表相似的“海豚”和“海狮”分到了两个不同的簇，这显然对OVD任务也不太好：因为OVD假如在海豚上训练，我们希望模型学到外观特征：白色肚皮等，这有助于在测试阶段泛化找到海狮。而不是过拟合到海豚这个类别上，所以直接用T5提取语言向量也不太好。
3）图c中，首先用GPT得到类别名称的外观描述：比如海豚白色肚皮a啥的，然后在经过T5模型聚类，则得到的分类簇就合理的多。
下面看作者如何具体实现的。

2、方法

这里简单介绍下OVD任务：模型在 $C_B$ 上训练，然后在 $C_N$ 上评测，且 $C_B和C_N$ 没有交集。

2.1.训练阶段

在这里插入图片描述
在训练阶段，如上图所示其实是个双流网络：1）基于Detr架构的视觉提取器；2）文本特征提取器。这里作者以cat进行释义，在测试阶段会与cat相似的"tiger"进行测试。

2.1.1.文本特征提取器

这里先介绍下文本提取器，也就是如何模拟图c中实现的：
在这里插入图片描述
先用GPT生成每个类别描述，然后经过T5得到特征向量，之后执行Kmeas，就能够将cat和tiger这类视觉上相似的类别聚集在一起，然后采样了负样本采样:采样除cat和tiger的其余四个物体作为负样本。
注意：这里我只是表达意思，没有具体黏贴原论文的公式，因为这篇论文给人读起来有点儿跳脱，一会儿train，一会儿test。

2.1.2.图像特征提取器

这里采用了两阶段的Detr结构，在经过Encoder后，执行了TopN操作：
在这里插入图片描述
其中 $\tau_{cls}$ 就是clip提取的文本特征向量，跟 $f_i$ 计算cos相似度，取TopN。
之后作者将 $q_j$ 进行了语义融合：

即累加了clip的语义信息，也累加了T5的Visual Concept信息。