DETRs与协同混合作业训练之CO-DETR论文阅读
摘要
在本文中,我们观察到,在采用一对一集合匹配的 DETR 中,分配为正样本的查询(queries)过少会导致编码器输出的监督信息稀疏,从而严重削弱编码器判别特征的学习能力;反之,对解码器的注意力学习也有类似负面影响。为缓解这一问题,我们提出了一种新颖的协同混合分配训练方案,称为 Co‑DETR,以通过多样化的标签分配方式学习更高效且更有效的基于 DETR 的检测器。该训练方案通过多个并行辅助头(auxiliary heads)的方式对编码器输出进行监督,这些辅助头采用了诸如 ATSS 和 Faster R‑CNN 等一对多标签分配策略。此外,我们还从这些辅助头中提取正样本坐标,用以生成额外的正查询,从而提升解码器对正样本的训练效率。在推理阶段,这些辅助头将被丢弃,因此本方法不会为原始检测器引入额外的参数或计算开销,也无需手工设计的非极大值抑制(NMS)步骤。我们在多种 DETR 变体上进行了广泛实验,包括 DAB‑DETR、Deformable‑DETR 和 DINO‑Deformable‑DETR。结果表明,基于 Swin‑L 的最先进 DINO‑Deformable‑DETR 在 COCO 验证集上的 AP 从 58.5% 提升至 59.5%。更令人惊喜的是,当采用 ViT‑L 主干时,我们在 COCO test‑dev 上取得 66.0% AP,在 LVIS 验证集上取得 67.9% AP,以更小的模型规模大幅超越了此前的方法。代码已发布于:https://github.com/Sense-X/Co-DETR
1 引言
目标检测是计算机视觉中的一项基础任务,要求我们同时对图像中的目标进行定位和分类。R‑CNN 系列 [11, 14, 27] 及其后续多种变体 [31, 37, 44](如 ATSS [41]、RetinaNet [21]、FCOS [32] 和 PAA [17])通过一对多标签分配方案取得了目标检测领域的重大突破。在这些方法中,每个真实边界框都会被分配给多组输出坐标,配合候选框(proposals)[11, 27]、锚框(anchors)[21] 或特征图中心点 [32] 共同进行监督。尽管这些检测器性能优异,却依赖于大量手工设计的组件,例如非极大值抑制(NMS)和锚框生成 [1]。
为实现更加灵活的端到端检测器,DEtection Transformer(DETR)[1] 将目标检测视为集合预测问题,并引入了一对一集合匹配方案,基于 Transformer 编码器-解码器架构。在该方案中,每个真实边界框仅与一个查询(query)进行匹配,无需其它手工先验组件。这一方法带来了极大的灵活性,并催生了大量 DETR 系列改进工作。然而,与一对多标签分配的方法相比,原始的端到端检测器的性能仍有差距。
本文旨在在保留端到端优势的同时,使 DETR 系列检测器在性能上超越传统方法。针对一对一匹配只探索少量正查询所导致的训练效率低下问题,我们从编码器特征表示和解码器注意力学习两个角度进行了深入分析。以 Deformable‑DETR [43] 与简单替换为 ATSS 头的一对多分配方法为例,我们利用特征的 L₂ 范数在空间坐标上构建判别性得分图,通过 IoF–IoB 曲线验证一对多分配能更好地区分前景与背景(见图 2)。同时,我们在解码器中对比了 Deformable‑DETR 与 Group‑DETR [5] 中的交叉注意力得分,发现增加正查询同样能改善注意力学习。
基于上述观察,我们提出了 Co‑DETR 协同混合分配训练方案。其核心在于:
丰富编码器监督:在 Transformer 编码器输出上并行接入多个辅助头,这些头采用 ATSS、FCOS、Faster R‑CNN 等多种一对多标签分配方式进行监督,迫使编码器学习更具判别力的特征。
增强解码器正样本训练:从各辅助头中提取正样本坐标(正锚框与正 proposals),将其作为多组正查询输入原始解码器,以提升解码器对正样本的训练效率。