当前位置：首页 > news >正文

【技术追踪】基于检测器引导的对抗性扩散攻击器实现定向假阳性合成——提升息肉检测的鲁棒性（MICCAI-2025）

news 2025/7/17 19:29:22

将扩散模型与对抗攻击相融合，生成更有挑战的假阳性样本，提升息肉检测性能！

论文：Targeted False Positive Synthesis via Detector-guided Adversarial Diffusion Attacker for Robust Polyp Detection
代码：https://github.com/HusterHq/DADA

0、摘要

息肉检测对于结直肠癌筛查具有重要意义。然而，现有模型受限于训练数据的规模与多样性不足。尽管生成模型在数据增强方面展现出潜力，当前方法主要聚焦于提升息肉样本的多样性，普遍忽视了假阳性这一关键问题。（研究意义，这个角度有很意思）

本文针对该空白，提出一种对抗性扩散框架，用于合成具有高价值的假阳性样本。

由于阴性背景的高度变异性，假阳性合成面临显著挑战。为此，本文提出两项核心创新：

（1）设计区域噪声匹配策略，借助息肉检测数据集构建阴性合成空间。该策略通过对息肉区域进行掩蔽，训练以阴性为中心的扩散模型，使其专注于学习多样化的背景模式；

（2）引入检测器引导的对抗性扩散攻击模块（DADA），通过在阴性合成过程中引入扰动以干扰预训练检测器的决策，从而引导模型生成具备高价值、能够迷惑检测器的假阳性样本，而非低价值的普通背景；

本研究首次将对抗性扩散机制应用于病灶检测任务，开创了面向假阳性合成的靶向生成范式，为结直肠癌筛查的临床可靠性提供了新的技术路径。在公开数据集与内部数据集上的广泛实验表明，本文方法显著优于现有最优方法，所合成的数据在 F1 分数上分别使检测器性能提升 2.6% 与 2.7%。

1、引言

1.1、研究意义与当前挑战

（1）近年来，息肉检测技术主要聚焦网络架构创新，尽管取得进展，但由于息肉形态的多样性及结肠环境的复杂动态特性，息肉检测仍面临重大挑战，虽然某些方法能解决特定问题（如反射伪影和尺寸变化），但缺乏全面多样的数据集仍是制约技术进步的主要障碍；（数据多样性也需要提升）

（2）现有基于生成模型实现数据集增强的方法主要侧重于生成阳性样本，对假阳性问题的关注度相对较低；

（3）在实际临床工作中，阴性样本的数量明显多于阳性样本，目前系统平均每分钟会产生五个假阳性，此外，个体差异和肠道准备方式的不同导致结肠环境高度复杂，进一步加剧了假阳性问题，使得可靠检测变得更加困难；

1.2、本文贡献

（1）本文提出一种新颖的图像合成方法，将扩散模型与对抗攻击相融合，聚焦于生成具有高价值的阴性样本，以实现对息肉检测器的有效误导；（生成更有挑战性的样本，是不是也可以考虑生成假阴性呢🤔）

（2）提出一种仅针对背景的去噪器，可直接利用现成息肉检测数据集学习纯阴性模式，并设计检测器引导的对抗性扩散攻击模块（DADA），通过攻击已训练检测器，引导降噪过程生成高价值且逼真的假阳性样本；

（3）在公开 Kvasir 数据集及自建数据集上的大量实验表明，本文方法均达到当前最优性能，相较基线分别提升 F1 分数 2.6% 与 2.7% 以上；

2、方法

图 1 展示了本文提出的对抗扩散框架总体结构，主要包含三大核心模块：（1）已训练的息肉检测器；（2）仅作用于背景的去噪器（BG-De）；（3）检测器引导的对抗扩散攻击模块（DADA）。

在推理过程中，迭代流程会在以下步骤间交替进行：首先通过 BG-De 进行去噪处理，接着根据检测器预测结果评估其可能引发的误判风险，最后利用 DADA 计算出的对抗扰动，在预设的兴趣区域对检测器实施干扰。

Figure 1 | 推理流程由三个关键模块组成：背景专用去噪器（BG-De）、经充分训练的息肉检测器（Detr）以及检测器引导的对抗扩散攻击模块（DADA）共同构成整体框架。具体而言，利用图像修复技术（inpainting）在真实图像的用户指定区域内生成新的阴性样本。BG-De 从纯阴性分布中采样，而 DADA 通过引导采样方向，使生成的视觉模式能够诱发检测器产生阳性响应，需指出的是，BG-De 与检测器的训练过程未在图中展示；

在这里插入图片描述

2.1、背景专用去噪器作为区域噪声匹配的基础负样本生成器

BG-De 是扩散概率模型（Diffusion Probabilistic Model，DDPM）的一个变体，专门用于选择性去噪背景区域。与原始 DDPM 不同，BG-De 通过区域掩蔽将学习重点聚焦于背景区域。对于息肉检测训练样本 ${x, m_{gtb}\}$ ，其中 $m_{gtb}$ 为二值掩码，其值为 1 表示息肉真实边界框（GT bounding boxes）内的像素，值为 0 表示框外像素，本文对损失函数作如下修正：（学背景区域噪声）
在这里插入图片描述
该方法使 BG-De 仅需对背景（负样本）分布进行建模，即使存在息肉样本时也是如此。值得注意的是，训练集仅包含息肉图像及其对应的 GT 边界框——这在检测任务中是标准做法，无需额外收集数据。

2.2、检测器引导的对抗扩散攻击：驱动普通背景向高价值假阳性样本演化

基于训练好的 BG-De，逐步对初始噪声图进行去噪处理，以合成逼真的负样本内窥镜图像 $x_0$ 。去噪过程可表示为：（DDPM 采样步骤）
在这里插入图片描述
其中 $μ_θ(x_t,t)$ 表示通过 BG-De 方法采样的均值，而 $ε∼N(0,1)ε∼\mathcal N (0,1)$ 用于重参数化。

然而，生成的图像通常较为普通且不足以迷惑检测器，这限制了其训练价值。为解决这一问题，本文在每个去噪步骤中引入扰动 $η_t$ 来调整采样轨迹，引导 BG-De 生成超出检测器决策边界的图像。去噪过程变为：
在这里插入图片描述
其中 $η_t$ 是一个可训练的变量，初始化为零矩阵。

受对抗攻击方法启发，本文提出 DADA 模块，以充分训练的检测器为攻击目标，优化扰动，在用户自定义边界框 $b$ 内诱导假阳性，从而生成具有误导性干扰特征的高难度阴性样本。具体地，将 $x_{t−1}$ 输入检测器，并将 $b$ 视为“伪真实”（illusory GT）框，计算检测损失如下：
在这里插入图片描述
其中 $Lcls.\mathcal L_{cls.}$ 和 $Lloc.\mathcal L_{loc.}$ 分别表示分类损失和定位损失。 $p̂_{σ(b)}$ 和 $b^σ(b)\hat b_{σ(b)}$ 分别代表对“虚幻”GT框 $b$ 的预测多边形类别概率和边界框。

预测框与伪真实框的匹配策略取决于检测器本身，例如 DETR 中所采用的匈牙利算法。随后，通过最小化检测损失对扰动进行优化，扰动方向 $η_t$ 则依据反向传播梯度进行更新：
在这里插入图片描述
其中， $s g n (\cdot)$ 为符号函数， $α$ 为极小步长。将 DADA 与 BG-De 相融合后，每一步降噪中的扰动持续引导 $x_0$ 的生成，最终形成具有高度迷惑性的高价值阴性样本，显著干扰检测器判断。

2.3、保持上下文一致性的图像修复策略

为提升生成图像在解剖结构上的保真度，本文采用了一种融合真实图像上下文的修复策略来指导局部假阳性生成。具体而言，在预定义区域内实施“攻击与修复”操作，而其余区域则保留为真实图像的噪声版本。修复区域的定义与第 2.2 节所述相同。最终去噪流程可表述如下：
在这里插入图片描述
其中， $m_b$ 为二值掩码，在边界框 $b$ 内取值为 1，其余区域为 0。该策略将 DADA 与 BG-De 有机融合，于每一步降噪过程中引入扰动，以生成 $x_0$ ；该样本在保持视觉完整性的同时，最大化对检测器的干扰效果。最终，本文方法可在真实图像的局部区域内生成高价值阴性样本，同时完整保留全局上下文，如 图 2 所示。