当前位置：首页 > news >正文

《Saliency Attack: Towards Imperceptible Black-box Adversarial Attack》论文分享（侵删）

news 2025/7/12 19:16:44

原文链接：https://doi.org/10.1145/3582563

author={Zeyu Dai and Shengcai Liu and Qing Li and Ke Tang}

摘要

深度神经网络很容易受到对抗样本的攻击，即使是在攻击者只能访问模型输出的黑箱环境中。最近的研究已经设计了一种有效的黑盒攻击方法，具有很高的查询效率。然而，这种性能通常伴随着攻击不可察觉性的折衷，阻碍了这些方法的实际使用。在本文中，我们提出将扰动限制在一个小的显著区域内，以产生难以察觉的对抗性示例。该方法与现有的黑盒攻击兼容，在不降低攻击成功率的情况下，显著提高了黑盒攻击的隐蔽性。此外，我们提出了显著性攻击，一种新的黑盒攻击，旨在细化显著性区域的扰动，以获得更好的不可感知性。实验结果表明，与现有的黑盒攻击方法相比，该方法具有更好的隐蔽性，包括最大表观失真（MAD）、0和 2距离，并且通过MAD的类人阈值判断，该方法具有更高的成功率。重要的是，我们的方法产生的扰动在某种程度上是可以解释的。最后，对不同的基于检测的防御方法进行了仿真验证，结果表明该方法具有较好的鲁棒性。

一、INTRODUCTION

深度神经网络（DNN）在广泛的应用中取得了重大进展，例如图像分类[9]，人脸识别[27]，对象检测[28]，语音识别[14]和机器翻译[3]。尽管他们的成功，深度学习模型已经表现出对抗性攻击的脆弱性[12，20，21，36]。通过向良性输入添加一些小的扰动，对抗性示例（AEs）可以欺骗DNN做出错误的预测，这是一个严重的威胁，特别是对于一些安全敏感的场景，如自动驾驶[34]。

现有的对抗性攻击根据对目标模型的可达性可以分为白盒攻击和黑盒攻击。白盒攻击[6，12，23，26，36]可以完全访问目标模型的架构和参数，并且可以通过反向传播轻松生成成功的AE。然而，在实践中，攻击者通常无法获得模型内部。这就产生了更现实和更具挑战性的黑盒攻击[2，15，16，19，22，24]，它们只需要目标模型的输出。

Fig. 1.SOTA黑盒攻击产生的一些不良事件。

由于许多现实世界的在线应用程序编程接口（API）经常对用户查询提出强制性的时间或金钱限制[15]，最近对黑盒攻击的研究关注提高查询效率，这确实取得了显着的进展。例如，最先进的（SOTA）Square Attack [2]可以成功地对ImageNet数据集[9]进行无针对性的攻击，平均只有几十个查询。另一方面，这种性能通常通过应用大区域甚至全局扰动（例如，方块攻击中的随机垂直条纹）添加到原始输入中，最终导致与原始输入有显著视觉差异的不自然AE（参见图1中的一些示例）。实际上，不可感知性对于攻击者来说是至关重要的。当前的在线API通常将检测器集成到其服务中以检测异常输入[19]。那些扰动太明显的AE很难通过这些探测器，更不用说人类的判断，阻碍了这些黑匣子攻击的实际使用。

本文旨在解决上述问题。关键的见解是，我们可以引导黑盒攻击在对模型输出影响最大的小的显著区域中进行搜索，以实现具有不可感知的扰动的成功攻击。具体地说，在以前的DNN可视化工作中已经表明，可以生成所谓的BP显着图，以说明哪些特征可以通过计算模型输出相对于输入的导数来影响模型预测。如图2的第一列所示，BP显着图中较亮的像素对模型输出的影响更大，因此扰动它们更有可能改变模型预测。实际上，经典的白盒攻击JSMA [26]正是构建了这样一个映射，并迭代地从中选择像素进行扰动。尽管由于无法访问模型梯度，BP显着图不能用于黑盒攻击，但可以从图2的第二列中观察到，亮像素区域大致表示图像中主要对象的位置。也就是说，在黑盒设置中，我们可以利用现有的显着对象检测模型[44]，该模型不需要输入图像以外的信息来近似获得显着区域，然后将扰动限制到它。这种方法很有吸引力，因为它很容易与大多数现有的黑盒攻击兼容。通过将其集成到SOTA黑盒攻击中，我们发现修改后的攻击在攻击不可感知性方面有了显著的改善，而成功率几乎没有下降（见表1中的结果）。尽管如此，它们仍然受到全局扰动策略的影响，最终产生几乎跨越整个显著区域的复杂和不规则扰动（参见图5的一些示例）。

见图2。突出性攻击的一个例子。第1列：BP-显著图，特定于给定图像和相应类别;第2列：显著区域，通过显著对象检测生成，并且与BP-显著图中的显著像素的区域大致一致;第3列：扰动，通过显著性攻击生成，并且被限制在显著区域中;第4列：最终对抗性示例;第5列：原始图像。

为了实现更难以察觉的攻击，我们试图进一步限制扰动到更小的区域。直觉是，即使在显著区域中，一些子区域也更关键。例如，已经证明狗的面部区域在狗图像的显著区域中是最亮的[46]，并且模糊它将显著改变模型输出[42]。此外，通过将内部特征可视化与输出预测相结合，[25]中已经揭示，在狗脸区域内，耳朵和眼睛似乎比其他更重要。因此，假设图像的显著区域相对于其对模型输出的影响是渐进的是合理的。如果我们能找到更小但更突出的子区域，扰动将更有效，导致更多难以察觉的攻击（见图2的第三列）。因此，我们提出了显着性攻击，一种新的黑盒攻击，递归细化的扰动显着区域。

图5.不同攻击生成的示例。对于每个示例，上面的行是AE和原始图像。下面的行是扰动和BP显著性图。

值得一提的是，除了白盒攻击JSMA之外，将扰动限制在一个小区域的想法也已经在基于转移的攻击中实现[10，40]，其中采用类激活映射（CAM）[46]和Grad-CAM [30]来生成显着图。然而，基于传输的攻击假设用于训练目标模型的数据分布是可用的，因此可以构建替代模型来近似它，这实际上属于灰箱设置，其中目标模型的部分知识是已知的。因此，它们不能应用于更严格的黑盒设置，其中只有模型输出可用（详见2.3节）。综上所述，我们在这项工作中做出了以下贡献。

·据我们所知，为了在黑盒环境中制作AE，我们是第一个将扰动限制在显著区域的人。这种方法很容易与许多现有的黑盒攻击兼容，并显着提高其不可感知性，而成功率几乎没有下降。

·我们提出了显着性攻击，这是一种新的无梯度黑盒攻击，它迭代地细化显着区域中的扰动，以保持它们最小和必要。与SOTA黑盒攻击相比，该方法在最明显失真（MAD）、距离和成功率方面均具有更好的攻击不可感知性，并且在MAD上采用类人阈值，成功率显著提高。

·我们证明了显着性攻击产生的扰动对基于检测的防御更鲁棒，包括特征压缩和二元分类器检测。

二、relation work

在这一部分中，我们首先概述了黑盒攻击的最新工作。根据AE的产生方式，这些攻击可以分为梯度估计攻击和无梯度攻击。此外，我们还介绍了对抗性攻击的不可感知性的相关工作。最后，我们讨论了一些方法，提取图像中的显着区域。

2.1黑盒攻击

2.1.1梯度估计攻击。

梯度估计攻击首先通过查询目标模型来估计梯度，然后使用它们来运行白盒攻击。ZOO攻击[7]首先采用对称差商来近似梯度，然后执行白盒CarliniWagner（CW）攻击[6]。AutoZOOM [37]是ZOO的一个变体，它使用基于梯度估计的随机向量，将每次迭代的查询次数从ZOO中的2D减少到N+1（D是维度，N是样本大小）。为了进一步提高查询效率，Ilyas等人[16]提出了“平铺技巧”，即同时更新像素的正方形，而不是单个像素。这将显著降低维数，降低系数为2（为tile长度）。

2.1.2无梯度攻击。

无梯度攻击不估计梯度，而是根据查询结果直接使用搜索启发式生成AE。Su等人[33]提出了一种采用差分进化算法对图像中最重要的像素进行扰动的单像素攻击。Alzantot等[1]提出了GenAttack，其使用遗传算法来生成AE。为了提高查询效率，Moon等人[22]考虑了一个离散代理优化问题，该问题将连续范围[−𝜖, +𝜖]的原始约束转换为离散集合{−𝜖, +𝜖}，从而大大减少了搜索空间。这是由线性规划（LP）激发的，其中在可行集的极值点处获得最优解[29]。Square Attack [2]结合了平铺技巧[16]和离散优化[22]，在随机搜索的情况下获得了迄今为止在成功率和查询性能上最好的结果。

2.2 Attack Imperceptibility

AE的不可感知性对于实际攻击者来说至关重要，这一点已经被以往的研究从不同的角度进行了研究。Guo等人[13]认为低频扰动是难以察觉的，因此在频域中搜索AE。但是Zhang等人[43]将不可察觉性视为图像中的视觉平滑性，并将拉普拉斯平滑集成到优化中。Croce和Hein [8]使用0和∞范数的组合来产生稀疏且不易察觉的扰动。𝐿此外，一些研究还利用颜色距离[45]和图像质量评估（IQA）[18，38]来提高攻击的不可察觉性。

另一方面，确定如何评估AE的不可察觉性仍然是一个开放的问题。现有的对抗性攻击大多使用范数（𝐿0，L 2，L∞）来度量扰动图像与原始图像之间的人类感知距离。尽管如此，已经表明范数并不足够适合人类视觉系统[31]。𝐿𝑝[11]中的一项最新研究通过对不同AE的不可察觉性进行大规模人类评价，系统地检查了包括标准在内的各种IQA指标，并发现在所有指标中，最明显失真（MAD）[17]指标最接近主观评分（MAD的详细信息见附录A.1）。因此，在本研究中，我们采用MAD作为评估攻击不可感知性的主要指标。

2.3 Extracting Salient Region

如前所述，已经存在白盒攻击或基于转移的攻击，其将扰动限制到小的显著区域。具体而言，白盒攻击JSMA [26]通过计算模型输出相对于输入像素的导数[32]来构建BP显着性图，而两种基于转移的攻击[10，40]分别利用CAM和Grad-CAM来提取显着区域。CAM [46]用卷积层和CNN的全局平均池化替换最终的全连接层，并通过前向传播定位特定于类的显著区域。Grad-CAM [30]改进了CAM，无需修改网络架构，但它仍然需要访问模型的内部参数来计算梯度。因此，CAM和Grad-CAM只能应用于白盒攻击或基于转移的攻击，其首先构建透明的替代模型，用基于梯度的白盒攻击制作AE，然后将生成的AE转移到目标模型。可以想象，对于基于转移的攻击，AE和显著性图的可转移性高度依赖于替代模型和目标模型之间的相似性，这进一步依赖于训练数据分布的先验知识。不幸的是，这样的知识和模型梯度在黑盒设置中都不可用。考虑到上述方法的局限性，我们采用显著对象检测模型[44]来直接生成给定输入图像的显著性图，而无需访问目标模型的架构或参数。

三、 PROPOSED METHOD

图3。显著性攻击的总体流程图

3.1 Preliminary

给定经过良好训练的DNN分类器h：[0，1] → R，其中是d输入x的维度，K是类的数量。ℎ𝑘 (𝑥) 表示属于类的预测得分。𝑘分类器将使最大化的类h（k）分配给输入k。非目标攻击的目标是找到一个 AE xadv，这会导致模型从真实类 ygt 错误分类，同时保持 xadv 与良性输入 x 之间的距离小于阈值 ε：

注意，最后一个约束表明，𝑥𝑎𝑑𝑣是一个有效的图像。在本研究中，我们关注的是[2，22]中的∞范数。传统上，寻找最优解的任务可以被重新表述为解决一个受约束的连续问题：

其中， 𝑓(𝑥) = 𝐿(𝑥, 𝑦𝑔𝑡) 是损失函数。类似于[22]，我们将连续问题转化为离散代理问题，其中扰动𝑥𝑎𝑑𝑣 − 𝑥 = 𝛿 ∈ {−𝜖, +𝜖, 0}𝑑. 。注意，与[22]不同的是，所有像素都被−𝜖 or +𝜖,，我们允许像素保持不受扰动，以避免全局扰动。此外，只有显著区域中的像素可以被扰动。最后一个问题被定义为下面的集合最大化问题。

其中V表示作为所有像素位置的集合的基集合（|V| =𝑑），S表示显著区域中的像素集合，S+和S-分别表示具有+𝜖 and −𝜖扰动的所选像素集合，并且𝑒𝑖是第𝑖-个标准基向量。注意，S ⊆ V和S \ (S+ ∪ S−)是未受扰动的显著区域中的像素集合。等式（3）的目标是找到S+和S-，这将最大化目标集函数F。

3.2 Salient Object Detection

显著目标检测的目的是自动准确地提取图像中的显著目标。与其他显著区域提取方法如BP-saliency map [32]，CAM [46]和Grad-CAM [30]相比，这种类型的模型不需要输入图像以外的任何信息，非常适合黑盒设置。我们采用金字塔特征注意力（PFA）网络1 [44]，通过同时捕获高级上下文特征和低级空间结构特征，在多个数据集上实现SOTA性能（详情请参见附录A.2）。具体来说，给定一个输入图像，PFA可以为每个像素生成一个0到1之间的显着性分数。较高的值表示较高的视觉显著性。然后，我们使用一个阈值的显着性分数转换成一个二进制显着性掩模，它确定的显着区域。𝜙二值化可以表示为

其中，𝑠𝑖 and 𝑠∗ 𝑖分别是第i个像素位置处的显著性得分和二进制掩码。因此，显著区域是由1掩蔽的像素的集合。

3.3 Refining Perturbations in Salient Region

图4.图中细化了一个树状结构的图像块。在初始块中，每个块是树的根节点，并且其子节点是其更细的块。对于每个块，只有显著区域中的部分将被扰动。

算法1中概述了所提出的显著性攻击。搜索过程（第6-35行）基于图像的树结构递归地细化扰动，如图4所示。具体地说，输入图像首先被分割成一些初始块（图4中的粗网格），并且仅保留显著区域中的块（第7-11行）。然后，我们尝试在每个初始块上分别添加+𝜖 or −𝜖扰动（第12-19行），并根据它们对模型输出的影响（F）对它们进行排序（第26行）。之后，我们选择影响力最大的块𝐹进行进一步的细化，如果它的权重比当前的最佳权重更好（第27-35行）。然后，我们递归地细化当前最佳块（第32行），将该块分割成更小的块（图4中的更细网格），并再次尝试单独地在每个块上添加扰动（此时，为了方便起见，我们只是翻转扰动（第21-24行），例如，+𝜖 to −𝜖）来找到最小的块。细化过程重复直到最小块（例如，1像素，第30行）或没有更小的块具有更好的分辨率（第28行）。然后，我们回溯到最后一级分割块，并使用第二好的块进行进一步的扰动。通过这种方式，最重要的块将首先被探索，并且扰动可以尽可能小，而不需要初始化全局扰动，如吝啬攻击[22]。

充分利用查询预算，结合不同初始块大小的优点𝑘𝑖𝑛𝑡 （大𝑘𝑖𝑛𝑡 可以迅速导致大扰动的成功攻击，而小扰动𝑘𝑖𝑛𝑡 能够在更精细的网格中对小扰动进行细化）我们利用外部迭代来运行前面提到的优化搜索，并减少搜索次数（第2-5行）。𝑘𝑖𝑛𝑡在迭代过程中，如果生成的伪随机数成功欺骗了模型（F> 0）或达到了终止条件（第2行），算法将停止。

我们使用非目标攻击的CW攻击[6]的损失函数用于等式（2）：

其中，𝑍(𝑥𝑎𝑑𝑣)𝑦𝑔𝑡是相对于原始图像的地面实况类的logit。以这种方式，施加损失函数以在地面实况类和其他类之间留下余量。

四、 EXPERIMENTS

实验的主要目的是验证：（1）显著性区域是否能够提高现有黑盒攻击的不可见性;（2）显著性攻击是否能够进一步提高黑盒攻击的不可见性。因此，我们首先将我们的显著性攻击与基线进行比较，包括SOTA黑盒攻击及其限制在显著区域的修改版本。然后我们分别进行消融研究以验证显著区域和细化搜索的有效性。此外，我们还测量了该算法的超参数敏感性。最后，我们测试了不同的基于检测的防御机制，从防御的角度来评估其不可感知性。

图5中示出了一些示例。我们可以很容易地发现，由于全局扰动，原始的Parsimonious Attack和Square Attack的扰动在整个图像中非常明显，而它们的修改版本由于在背景区域不存在扰动而相对更难以察觉。然而，它们的扰动仍然是复杂和不规则的，几乎占据了所有的显著区域。相比之下，即使限制在相同的显着区域中，显着性攻击产生的扰动更小，更关键，大致对应于BP显着图中的亮像素。它们还代表了狗的鼻子或耳朵的位置，这与我们之前的灵感雅阁。此外，由于查询预算不足，边界攻击的AE包含明显的粗糙纹理，TVDBA同样会产生全局和不规则的扰动。

表1.不同攻击方式的比较。SRtrue表示MAD ≤ 30的成功AE的发生率。SD表示在10组共10，000起AE中计算的标准差。基于Wilcoxon符号秩检验（显著性水平为0.05），最佳结果以粗体显示。

图6。不同MAD评分阈值下的查询与真实成功率

见图7。使用不同策略的显著性攻击生成的示例。

表2.显著性发作的消融研究。

我们进行了显著性攻击的消融研究，包括在显著性区域，在非显著性区域和无显著性（在整个图像中的细化）的细化。我们还设计了一个贪婪搜索作为基线，以验证我们的细化搜索。我们测试了贪婪搜索的多个块大小，并使用32作为最佳选择。表2和图7中给出了1，000张随机选择的图像和一些示例的结果。注意，在显著区域中的细化和在没有显著性的情况下的细化生成相同或几乎相同的扰动，这意味着显著区域确实包含有用的部分，并且通过限制搜索空间来提高查询效率。但对于非显著区域的细化，由于搜索空间无用，其扰动更加复杂和可见，查询效率和SR更差。与贪婪搜索相比，我们的Refine搜索具有更好的查询效率和SRtrue，这表明了它的优越性。因此，我们可以得出结论，显着区域和细化搜索促进显着攻击。