用于共显著目标检测的记忆辅助对比共识学习(翻译)
摘要
共同显著目标检测(CoSOD)旨在从一组相关的源图像中检测出共同的显著目标。大多数最新的研究工作都采用注意力机制来寻找共同目标。为了获得高质量映射图且高效准确的共同显著目标检测结果,我们提出了一种新颖的内存辅助对比共识学习(MCCL)框架,该框架能够实时(约150帧/秒)有效地检测共同显著目标。为了更好地学习组内共识,我们提出了组共识聚合模块(GCAM)来提取每个图像组的共同特征;同时,为了使共识表示更具判别力,我们引入了基于内存的对比模块(MCM),它在内存队列中保存并更新来自不同组的图像共识。最后,为了提高预测映射图的质量和完整性,我们开发了一种对抗完整性学习(AIL)策略,使分割区域更有可能由完整的目标组成,减少周围的噪声。在所有最新的共同显著目标检测基准测试上进行的大量实验表明,我们的精简版MCCL优于13种前沿模型,达到了新的最先进水平(在CoSOD3k和CoSal2015数据集上,S指标分别提升了约5.9%和约6.2%)。我们的源代码、显著图和在线演示可在https://github.com/ZhengPeng7/MCCL上公开获取。
一 介绍
共同显著目标检测(CoSOD)旨在从一组源图像中检测出最为常见的显著目标。与标准的显著目标检测(SOD)任务相比,CoSOD更具挑战性,因为它需要在一组图像中区分同时出现的目标,其中不同类别的显著目标和同一类别的非显著目标都是干扰因素。CoSOD方法还展现出其作为其他计算机视觉任务预处理步骤的优势,例如语义分割(Zeng等人,2019年)、共同分割(Hsu、Lin和Chuang,2019年)以及目标跟踪(Zhou等人,2021年)等等。以往的研究工作倾向于利用图像组之间的各种一致性来解决CoSOD任务,包括共享特征(Fu、Cao和Tu,2013年)和共同语义信息(Han等人,2018年)。随着统一模型在上游任务中取得成功(Ren等人,2015年;Xiao等人,2017年),最新的CoSOD模型试图在一个统一的框架中处理显著目标检测和共同目标检测(Fan等人,2021年、2022年;Zhang等人,2020年c)。尽管这些方法取得了不错的性能,但它们大多只专注于在单个图像组中学习更好的一致性特征表示(Zhang等人,2020年c;Wei等人,2017年;Zhang等人,2020年b;Cong等人,2022年;Jin等人,2020年;Tang等人,2022年),这可能使它们存在以下局限性。首先,同一组中的图像只能相互作为正样本。由于缺乏组间可分性,从所有正样本中学习到的共识表示可能难以区分。此外,单个组中的图像数量通常不足以让模型学习到稳健且独特的、易于与其他表示区分开的特征。由于在实际应用中图像上下文的复杂性更高,目标类别的数量会显著增加,这使得共识表示更有可能彼此接近,难以识别。在这种情况下,迫切需要一个能够建立跨组连接并学习可区分共识的模块。
图1:基于深度学习的最新且具有代表性的共同显著目标检测(CoSOD)方法在CoSOD3k数据集上的准确率(S指标)和推理时间(毫秒)(Fan等人,2022年)。我们在七种现有的具有代表性的CoSOD模型和我们的内存辅助对比共识学习(MCCL)方法之间,就准确率(纵轴)和速度(横轴)进行了比较。气泡越大意味着模型权重的体量越大。我们的MCCL凭借轻量级模型(104.5兆字节的权重和5.93G的浮点运算次数)在实时性(7.6毫秒)的情况下取得了优异的性能(S指标为0.860)。所有方法均在一块A100-80G显卡上以批量大小为2进行测试,关于推理速度的在线基准测试可在https://github.com/ZhengPeng7/CoSOD_fps_collection找到。
为了实现准确且快速的共同显著目标检测(CoSOD),我们提出了内存辅助对比共识学习(MCCL)方法。该方法挖掘每个图像组内的共同特征,并识别不同组之间的差异,引导模型生成完整性高的共同显著图。为实现上述目标,MCCL中提出了三个关键组件。首先,我们提出了组共识聚合模块(GCAM),通过相关性原理挖掘同一组内的共同特征。其次,我们引入了基于内存的对比模块(MCM),利用长期记忆进行稳健的对比学习。具体来说,每个类别的共识在内存队列中通过动量进行保存和更新,以避免在线对比学习的不稳定性。第三,我们采用对抗完整性学习(AIL),以对抗的方式提高预测图的完整性和质量。在这一过程中,判别器会判断被掩码区域是来自预测图还是真实标注图。与生成对抗网络(Goodfellow等人,2014年)类似,我们的模型试图骗过判别器,生成能够完整掩码目标的高质量、高完整性的图。
我们的主要贡献可以总结如下:
我们利用Transformer构建了一个快速且强大的共同显著目标检测(CoSOD)基线模型,它优于大多数现有方法,这些现有方法虽配备了许多复杂组件,但仍不及我们的模型。
我们引入了组共识聚合模块(GCAM),以有效地生成每个组的共识。为了使各个共识之间更具区分度,我们以度量学习的方式提出了基于内存的对比模块(MCM)。
此外,我们提出了对抗完整性学习(AIL)方法,以对抗学习的方式来提高预测的共同显著图的质量和完整性。
我们进行了大量的实验来验证我们的内存辅助对比共识学习(MCCL)方法的优越性。大量的定量和定性结果表明,我们的MCCL能够大幅超越现有的共同显著目标检测(CoSOD)模型。
二 有关工作
显著目标检测
在深度学习时代到来之前,在传统的显著目标检测(SOD)方法中,手工设计的特征在检测过程中起着最为关键的作用(Cheng等人,2011年;Jiang等人,2013年;Li等人,2013年)。当进入深度学习的早期阶段时,特征通常是从图像块中提取的,然后这些特征会被用于生成目标候选区域(Wang等人,2015年;Zhang等人,2016年b;Kim和Pavlovic,2016年),或者将超像素(Li和Yu,2015年;Zhao等人,2015年)作为处理单元。正如(Liu等人,2022年)中所述,现有的显著目标检测方法的网络架构可以分为五类,即U型架构、侧边融合架构、多分支架构、单流架构和多流架构。到目前为止,U型架构是应用最广泛的架构(Ronneberger、Fischer和Brox,2015年),尤其是在需要融合低层和高层特征的时候。在早期阶段,通过聚合U型架构中网络不同层级的特征来对多阶段输出进行监督,以使输出特征更加稳健和稳定(Zhao等人,2019年;Fan等人,2021年;Zhang等人,2020年c)。(Zhang等人,2018年;Liu、Han和Yang,2018年;Zhao和Wu,2019年)在他们的模型中采用了注意力机制以进一步提升性能。此外,一些外部信息也被引入作为训练的额外指导,例如边界信息(Qin等人,2019年)、边缘信息(Zhao等人,2019年)和深度信息(Zhao等人,2019年)。
共同显著目标检测
共同显著目标检测(CoSOD)侧重于检测多组图像中的显著目标,而非单幅图像中的显著目标。传统的共同显著目标检测方法利用手工设计的线索(例如超像素(阿昌塔等人,2012年))来探索图像之间的对应关系。相比之下,基于深度学习的方法以端到端的方式学习共同目标的共识特征表示(魏等人,2017年;韩等人,2018年)。各种模型架构被应用于提升共同显著目标检测的性能,包括基于卷积神经网络(CNN)的模型(范等人,2021年;张等人,2020年b、c)以及基于Transformer的模型(唐,2021年)。尽管一些现有的方法同时研究了组内和组间线索(范等人,2021年),但在全面协调并同时利用组内和组间信息方面仍有很大的改进空间。
显著图的完整性学习
近年来,显著图的质量备受关注,这是为了让现有的与显著性相关的任务更贴近实际应用场景。(Li和Yu,2016年)尝试通过全局上下文与局部目标之间的协作来引导他们的模型学习完整性。TSPOANet(Liu等人,2019年)采用胶囊网络对部分与整体目标的关系进行建模,以实现分割出的显著目标更好的完整性和一致性。在(Qin等人,2019年)的研究中,应用了一种混合损失函数,以便更加专注于改善预测图的边界。此外,(Zhuge等人,2022年)对显著目标检测中的完整性问题进行了更深入的研究,并试图通过精心设计的组件来解决这一问题。在(Zheng等人,2022年)的研究中,提出了一个置信度增强模块,以使预测图更接近二值化。
三 方法
在本节中,我们首先介绍用于共同显著目标检测(CoSOD)任务的内存辅助对比共识学习(MCCL)的整体架构。然后,我们依次介绍所提出的三个关键组件:组共识聚合模块(GCAM)、基于内存的对比模块(MCM)以及对抗完整性学习(AIL)。首先,GCAM用于挖掘同一组图像的共同特征。其次,MCM用于使从不同组中学习到的共识更加稳健,并且彼此之间更具判别性。最后,我们采用AIL以对抗的方式提高预测图的完整性和质量。需要注意的是,MCM和AIL仅在训练期间使用,因此在推理过程中可以完全舍弃,从而得到一个更轻量级的模型。
图2:所提出的内存辅助对比共识学习(MCCL)的整体框架。输入图像来自多个组,并被输入到一个编码器中。首先,我们使用组共识聚合模块(GCAM),在该模块中可以分别学习每个组的组内特征。利用从每个单独组中学习到的共识,在基于内存的对比模块(MCM)的队列中,每个类别的内存里更新共识特征。然后,进行对比学习,以使各个共识之间更具判别性。我们的编码器和解码器的每个阶段仅通过一个1×1卷积层相连,以便以最少的计算量进行特征相加。我们的解码器由四个DecBlk组成,DecBlk即普通的残差块。我们尽可能简化模型的设计,以使我们的研究更加开放和可靠。最后,基于二元交叉熵(BCE)损失和交并比(IoU)损失的监督,预测出所有组的显著图。
概述
图2展示了所提出的内存辅助对比共识学习(MCCL)的基本框架,其中包括学习流程。与现有的那些将来自单个图像组的图像作为输入的共同显著目标检测(CoSOD)模型(如范等人,2022年;张等人,2020年b;金等人,2020年;张等人,2020年c)不同,我们的模型接收来自多个图像组的图像作为输入,这就带来了建立不同组之间交集联系的可能性。
首先,我们取N(默认值为2)个图像组的图像作为输入。我们将所有图像连接成一个完整的批次G,然后将其输入到编码器中。使用主干网络(默认是Transformer网络PVTv2(Wang等人,2022年))作为我们的编码器,提取嵌入特征得到\(F\),然后根据图像组类别将F分割为
,其中
,C表示通道数,
表示空间尺寸,N是图像组的数量。同时,编码器不同阶段的中间特征
会被保存下来,并通过一个
卷积层输入到解码器的相应阶段。
然后,依次被输入到组共识聚合模块(GCAM)中,以获取每个组的共识特征。利用这些组的共识特征
,在(Zheng等人,2022年)所使用的度量学习损失函数的监督下,相应类别的内存信息会在队列中以动量更新的方式进行更新。
此外,所有组的共识特征被连接起来形成,并输入到解码器中。解码器由四个堆叠的标准残差块组成,并通过侧向连接融合了早期的特征。在解码器的末端生成共同显著图M。解码器的预测结果M受到二元交叉熵(BCE)损失和交并比(IoU)损失的监督,这两种损失分别提供了像素级和区域级的监督。 最后,预测得到的共同显著图M与源图像G以及真实标注图GT一起参与计算。源图像G与共同显著图M进行逐像素相乘得到GM,以类似的方式我们得到GGT。然后将GM和GGT输入到一个独立的判别器中,判别器会判断这些被掩码的图像是由包含完整目标的真实标注图GGT生成的,还是由源图像G生成的。相应地,来自判别器的对抗损失会应用到整个生成器上,而二元交叉熵(BCE)损失则应用于判别器。
组共识聚合模块
图3:组共识聚合模块。编码器的特征被输入到组共识聚合模块(GCAM)中,并按组进行处理。在将一组的原始特征输入到非局部块之前,先对其进行均匀拆分和打乱。深度相关性计算建立起了共识特征与原始特征之间的语义交互联系。
在实际场景中,同一类别的物体往往具有相似的外观,这一特性已在许多相关任务中得到了利用,例如视频跟踪(Wang、Jabri和Efros,2019年)以及语义分割(Zhang等人,2019年),在这些任务中,共同物体之间的对应关系被用作先验信息。在这里,我们也将这一机制应用于共同显著目标检测(CoSOD)。与(Fan等人,2021年)的做法类似,我们采用非局部块(Wang等人,2018年)来提取亲和特征。 如图3所示,我们首先将编码器的输出特征拆分为
,然后对其进行打乱并输入到非局部块中。随后,在非局部块中,我们计算特征的亲和图,并在亲和图与值特征(即非局部块中的“V”)之间进行矩阵乘法运算,以得到共识特征
。最后,我们进行深度相关性计算,将原始特征与共识特征进行融合,并将它们连接起来,形成最终的共识表示
。
基于内存的对比模块
度量学习是一种广泛应用的技术,它有助于区分不同聚类的特征,并且在许多任务中都发挥着作用,其中包括共同显著目标检测(CoSOD)(韩等人,2018年;张、孟和韩,2017年;郑等人,2022年)。然而,共同显著目标检测(CoSOD)数据集仅包含数量有限的图像(几十张图像),且图像所属的组也有限(少于300个组)。在这种情况下,简单的度量学习无法很好地发挥作用,因为样本数量过少,不足以进行距离度量。
为了克服这一问题,一些对比学习方法引入了记忆队列,以便利用长期记忆来实现更稳健的对比学习,比如动量对比学习(MoCo)(何等人,2020年)、在线实例匹配(OIM)(肖等人,2017年)等等。受这些研究工作的启发,我们提出了基于内存的对比模块(MCM),该模块将每个类别的共识特征保存到内存块中,并在每一批数据中以动量更新的方式来更新相应的内存块。 更具体地说,如图2所示,所有组的共识特征会以
的形式保存或更新到它们各自的内存块中。内存更新过程如下:
其中,表示动量因子,默认设置为0.1。当
设置为0时,基于内存的对比模块(MCM)就属于完全在线的度量学习。
正如在基于内存的对比模块(MCM)中所展示的那样,每个内存块都将自身分为两部分,和
。在这种情况下,
被视为
的正样本,而整个
则被看作是
的负样本(郑等人,2022年)。然后,基于内存的对比模块(MCM)的损失可以通过广义排序三元组(GST)损失(郑等人,2022年)来计算,如下所示:
其中,表示三元组损失(施罗夫、卡列尼琴科和菲尔宾,2015年)中使用的间隔值,其被设置为0.1。
表示输入的
范数。
对抗完整性学习
尽管一些最新的研究已经对显著目标检测(SOD)的完整性问题进行了探讨(Zhuge 等人,2022 年),但他们试图通过设计复杂的模型架构和关键组件来解决这一问题,以使预测的显著图具有更高的完整性。这些尝试或许能够生成质量更好的显著图,然而他们设计的动机对于解决完整性问题来说并不是那么直观。
图4:我们的对抗完整性学习(AIL)中所使用的判别器。该判别器有四个依次堆叠的判别块(DiscBlk),它们的输出通道数分别为16、32、64和128。需要注意的是,在我们的实现中,第一个判别块(DiscBlk)里没有批量归一化层。
为了明确地解决这个问题,我们在我们的框架中提出了对抗完整性学习(AIL)。在对抗完整性学习中有三个数据源,即源图像、真实标注图以及当前批次的预测图。 在训练过程中,我们对两组数据分别进行逐像素乘法运算,也就是(源图像,真实标注图)和(源图像,预测图),如图4所示,从而分别得到GGT和GM。然后,我们使用一个判别器来判断被这两张图掩码后的源图像区域是真实的还是虚假的,如图2所示。显然,被真实标注图掩码的区域是具有100%完整性的完整且完好的物体。 在训练期间,来自判别器的损失会引导生成器生成能够更准确且更完整地定位物体的显著图。消融实验的结果如图7所示。
目标功能
如图2所示,主网络(生成器)的目标函数是由低级损失(即二元交叉熵损失(BCE)和交并比损失(IoU))和高级损失(度量损失和对抗损失)加权组合而成的。并且判别器涉及二元交叉熵损失(BCE)。基于内存的对比模块(MCM)的损失
的详细信息可以在上述“方法”部分中找到。二元交叉熵损失(BCE)、交并比损失(IoU)和对抗损失如下:
其中,Y是真实标注图,是预测图。
其中,是预测图,G表示源图像,
表示逐像素乘法运算,
分别表示判别器对
是否为真实标注图以及Y是否为真实标注图的预测结果。
因此,我们最终的目标函数为:
其中,分别设置为30、0.5、3、10和3,以便在训练开始时使所有损失都处于合理的规模,从而有利于优化过程。
四 实验
数据集
训练集。我们参照(Zhang等人,2020b)的做法,使用DUTS类别数据集(Zhang等人,2020c)和COCO-SEG数据集(Wang等人,2019)作为我们的训练集。整个DUTS类别数据集被划分为291个组,总共包含8250张图像。COCO-SEG数据集包含78个组的20万张图像以及相应的二值图。
测试集。为了全面评估我们的多类别对比学习(MCCL)方法,我们在三个广泛使用的共同显著目标检测(CoSOD)数据集上对其进行测试,即CoCA数据集(Zhang等人,2020c)、CoSOD3k数据集(Fan等人,2022)以及CoSal2015数据集(Zhang等人,2016a)。 在这三个数据集中,CoCA是最具挑战性的一个。它在背景、遮挡情况、光照条件、周围物体等方面具有更高的多样性和复杂性。按照最新的基准测试标准(Fan等人,2022),我们不对iCoseg数据集(Batra等人,2010)和MSRC数据集(Winn、Criminisi和Minka,2005)进行评估,因为在这些数据集中的大多数图像里都只存在一个显著目标。在包含更多显著目标的图像上评估共同显著目标检测(CoSOD)方法更具说服力,而且这样也更贴近现实生活中的应用场景。
评估协议
遵循GCoNet(范等人,2021年)的做法,我们在实验中采用S指标(范等人,2017年)、最大F值度量(阿钱塔等人,2009年)、最大E指标(范等人,2018年)以及平均绝对误差(MAE)来评估性能。
表1:我们的多类别对比学习(MCCL)方法与其他方法的定量比较。“↑”(“↓”)表示数值越高(越低)越好。“∗”表示当前的最优方法。UFO(苏等人,2022年)仍是一篇发表在arXiv上的论文,并且与DCFM(于等人,2022年)相比并没有显示出太多改进,所以我们将DCFM视为之前的最优方法(SoTA)。
实施详细信息
我们交替地从DUTS类别数据集(Zhang等人,2020c)和COCO-SEG数据集(Wang等人,2019)中选取样本,并且批次大小设置如下:
其中,“#”表示相应组中的图像数量。为了进行训练和推理,图像会被调整为 256×256 的大小。输出的图像会被调整回原始大小以进行评估。我们采用了三种数据增强策略,即水平翻转、色彩增强和旋转。我们的多类别对比学习(MCCL)方法使用 AdamW 优化器(Loshchilov 和 Hutter,2019)进行 250 个轮次的训练。初始学习率为 1e - 4,并在最后第 20 个轮次时将其除以 10。整个训练过程大约需要 3.5 小时,仅消耗约 7.5GB 的 GPU 内存。所有实验均基于 PyTorch 库(Paszke 等人,2019),在单张 NVIDIA RTX3090 GPU 上实现。
消融研究
图5:我们的多类别对比学习(MCCL)中不同模块及其组合的定性消融研究。(a)源图像;(b)真实标注;(c)仅使用全局上下文注意力模块(GCAM);(d)使用全局上下文注意力模块(GCAM)和基于内存的对比模块(MCM);(e)使用全局上下文注意力模块(GCAM)和对抗完整性学习(AIL);(f)使用全局上下文注意力模块(GCAM)、基于内存的对比模块(MCM)和对抗完整性学习(AIL),即我们模型的完整版本。
我们进行了消融实验,以验证我们的多类别对比学习(MCCL)中所采用的每个组件(即全局上下文注意力模块(GCAM)、基于内存的对比模块(MCM)和对抗完整性学习(AIL))的有效性。关于每个模块以及它们组合的定性结果如图5所示。
基线模型。我们构建了一个可靠的共同显著目标检测(CoSOD)网络作为基线模型。为了跟上最新的Transformer网络的发展步伐,我们也采用Transformer和卷积神经网络作为主干来构建我们的模型。按照GCoNet(范等人,2021年)的做法,我们将多个类别的图像及其真实标注作为输入来训练我们的多类别对比学习(MCCL)模型。 与之前的共同显著目标检测(CoSOD)模型相比,我们的基线网络以更简单的架构和更快的速度取得了不错的性能。为了与广泛使用的Transformer网络(多索维茨基等人,2021年;王等人,2021年;王等人,2022年)保持一致,与先前的共同显著目标检测(CoSOD)模型(张等人,2020c;范等人,2021年;吴、苏和黄,2019年;于等人,2022年)不同,我们使我们的模型更浅,并且在其编码器和解码器中仅构建了四个阶段。 为了实现一个简洁且快速的基线网络,首先,我们像原始的特征金字塔网络(FPN)(林等人,2017年)那样,用单个1×1卷积层(林等人,2017年)替换了(张等人,2020c;范等人,2021年;吴、苏和黄,2019年;于等人,2022年)中每个横向连接里的所有复杂模块。其次,我们仅设置单个残差块作为解码块,在该块中,输出会与来自横向连接的特征相加。最后,我们没有像(张等人,2020c;范等人,2021年;于等人,2022年)那样对解码器的所有阶段进行多阶段监督,而是仅对最终输出设置像素级监督,采用二元交叉熵(BCE)损失和交并比(IoU)损失的加权和,分别从局部和全局来引导模型。 我们的基线模型能够超越大多数现有的共同显著目标检测(CoSOD)方法,因此未来可以作为其他研究的一个强有力的基线参考。
表2:我们的多类别对比学习(MCCL)中所提出组件的定量消融研究。这些组件包括全局上下文注意力模块(GCAM)、基于内存的对比模块(MCM)、对抗完整性学习(AIL)以及它们的组合。
全局上下文注意力模块(GCAM)。正如在表2中所评估的性能那样,我们的全局上下文注意力模块(GCAM)不仅在更关注具有多个物体的复杂上下文的CoCA和CoSOD3k数据集上带来了显著的性能提升,而且在相对简单但需要在简单环境中更关注精确显著目标检测(SOD)的CoSal2015数据集上也有很大改进。
基于内存的对比模块(MCM)。在表2中,基于内存的对比模块(MCM)在所有数据集的各项指标上都呈现出持续的性能提升。如图5所示,与没有使用该模块的模型相比,基于内存的对比模块(MCM)有助于我们的模型做出更准确的预测。
图7:我们的对抗完整性学习(AIL)的定性消融研究。我们对配备了(w/)和未配备(w/o)所提出的对抗完整性学习(AIL)的基线模型进行了定性比较。
对抗完整性学习(AIL)。对抗完整性学习引导我们的模型去学习预测区域的完整性,并且生成的共同显著图往往更加稳健,包含一个或多个完整无缺的物体。如图7所示,对抗完整性学习所带来的改进可以从三个方面来看。第一,在物体层面上,对抗完整性学习提高了细长物体预测图的完整性,而细长物体通常很难被完全检测到。第二,在物体内部,对抗完整性学习有助于填充那些破坏已检测物体结构完整性的不可信区域。第三,在物体外部,对抗完整性学习抑制了干扰因素,这些区域包含的并非是一个完整的物体。
表3:所提出的对抗完整性学习(AIL)在不同模型上的定量消融研究。我们将所提出的对抗完整性学习(AIL)应用于其他共同显著目标检测(CoSOD)模型(范等人,2021年;张等人,2020c),并在CoCA数据集(张等人,2020c)上进行评估。
综上所述:1)全局上下文注意力模块(GCAM)将特征分为两部分,加速了亲和度的生成。2)基于内存的对比模块(MCM)最初的灵感来源于在线实例记忆(OIM,Xiao等人,2017年)。不同的是,基于内存的对比模块(MCM)是按类别而非按实例身份来保存特征;在线实例记忆(OIM)使用最终的归一化特征来更新队列,而我们使用的是由全局上下文注意力模块(GCAM)生成的一致性特征,这与共同显著目标检测(CoSOD)非常契合。3)对抗完整性学习(AIL)中的对抗学习策略在领域自适应(Ganin等人,2016年)中也能见到,但我们是首次将其应用于显著目标检测(SOD)领域,并使用分割区域来进行判别。我们还将对抗完整性学习(AIL)应用于其他共同显著目标检测(CoSOD)模型,以验证其高度的通用性,结果如表3所示。
与最先进的方法进行比较
为了进行全面的比较,我们将我们的多类别对比学习(MCCL)方法与一种传统的经典算法CBCS(傅、曹和屠,2013年)以及12种最新的基于深度学习的共同显著目标检测(CoSOD)模型进行了比较(所有用于比较的方法见表1)。由于在过去几年中,共同显著目标检测(CoSOD)方法已经取得了很大的进展,并且与单目标显著目标检测(single-SOD)方法相比获得了更好的性能,所以我们遵循之前的研究工作(范等人,2022年、2021年;张等人,2020c;于等人,2022年),没有列出单目标显著目标检测方法。之前方法的详细排行榜可以在(范等人,2022年)中找到。
定量结果。表1展示了我们的多类别对比学习(MCCL)方法和先前具有竞争力的方法的定量结果。根据上述结果,我们可以看到,我们的多类别对比学习(MCCL)方法优于所有现有的方法,尤其是在CoSOD3k(范等人,2022年)和CoSal2015(张等人,2016年a)数据集上。在这些数据集中,检测显著目标的能力比找出属于同一类别的目标更为重要。
图6:我们的多类别对比学习(MCCL)方法与其他方法的定性比较。“GT”表示真实标注。由于各种原因,我们选取了一些困难案例的结果。“极其困难的案例”指的是CoCA(张等人,2020c)测试集中的筷子组图像,因为筷子细长,难以检测。这可能是现有测试集中所有组中最困难的案例。
定性结果。图6展示了由不同方法预测得到的共同显著图,以便进行清晰的定性比较。在此图中,我们提供了来自CoCA(Zhang等人,2020c)和CoSOD3k(Fan等人,2022)的四种不同类型的复杂样本。与现有的模型相比,我们的多类别对比学习(MCCL)方法在消除干扰因素、检测微小目标以及处理融入复杂场景的目标方面表现出更强的能力。在那些极其困难的情况中,其他最新的方法大多时候会失效,而这进一步证明了我们的多类别对比学习(MCCL)方法具有更稳健的性能。
五 结论
在本文中,我们研究了一种用于共同显著目标检测(CoSOD)的新型记忆辅助对比一致性学习框架(即多类别对比学习(MCCL))。实验表明,基于内存的对比学习结合组内一致性,能有效地增强所得到的组特征的表征能力。此外,对抗完整性学习策略确实对显著目标检测模型有益,它具有以通用方式提高各种显著目标检测(SOD)和共同显著目标检测(CoSOD)模型的显著图的完整性和质量的潜力。