当前位置: 首页 > news >正文

【技术追踪】基于检测器引导的对抗性扩散攻击器实现定向假阳性合成——提升息肉检测的鲁棒性(MICCAI-2025)

  将扩散模型与对抗攻击相融合,生成更有挑战的假阳性样本,提升息肉检测性能!


论文:Targeted False Positive Synthesis via Detector-guided Adversarial Diffusion Attacker for Robust Polyp Detection
代码:https://github.com/HusterHq/DADA


0、摘要

  息肉检测对于结直肠癌筛查具有重要意义。然而,现有模型受限于训练数据的规模与多样性不足。尽管生成模型在数据增强方面展现出潜力,当前方法主要聚焦于提升息肉样本的多样性,普遍忽视了假阳性这一关键问题。(研究意义,这个角度有很意思

  本文针对该空白,提出一种对抗性扩散框架,用于合成具有高价值的假阳性样本。

  由于阴性背景的高度变异性,假阳性合成面临显著挑战。为此,本文提出两项核心创新:

  (1)设计区域噪声匹配策略,借助息肉检测数据集构建阴性合成空间。该策略通过对息肉区域进行掩蔽,训练以阴性为中心的扩散模型,使其专注于学习多样化的背景模式;

  (2)引入检测器引导的对抗性扩散攻击模块(DADA),通过在阴性合成过程中引入扰动以干扰预训练检测器的决策,从而引导模型生成具备高价值、能够迷惑检测器的假阳性样本,而非低价值的普通背景;

  本研究首次将对抗性扩散机制应用于病灶检测任务,开创了面向假阳性合成的靶向生成范式,为结直肠癌筛查的临床可靠性提供了新的技术路径。在公开数据集与内部数据集上的广泛实验表明,本文方法显著优于现有最优方法,所合成的数据在 F1 分数上分别使检测器性能提升 2.6% 与 2.7%。


1、引言

1.1、研究意义与当前挑战

  (1)近年来,息肉检测技术主要聚焦网络架构创新,尽管取得进展,但由于息肉形态的多样性及结肠环境的复杂动态特性,息肉检测仍面临重大挑战,虽然某些方法能解决特定问题(如反射伪影和尺寸变化),但缺乏全面多样的数据集仍是制约技术进步的主要障碍;(数据多样性也需要提升

  (2)现有基于生成模型实现数据集增强的方法主要侧重于生成阳性样本,对假阳性问题的关注度相对较低;

  (3)在实际临床工作中,阴性样本的数量明显多于阳性样本,目前系统平均每分钟会产生五个假阳性,此外,个体差异和肠道准备方式的不同导致结肠环境高度复杂,进一步加剧了假阳性问题,使得可靠检测变得更加困难;

1.2、本文贡献

  (1)本文提出一种新颖的图像合成方法,将扩散模型与对抗攻击相融合,聚焦于生成具有高价值的阴性样本,以实现对息肉检测器的有效误导;(生成更有挑战性的样本,是不是也可以考虑生成假阴性呢🤔

  (2)提出一种仅针对背景的去噪器,可直接利用现成息肉检测数据集学习纯阴性模式,并设计检测器引导的对抗性扩散攻击模块(DADA),通过攻击已训练检测器,引导降噪过程生成高价值且逼真的假阳性样本;

  (3)在公开 Kvasir 数据集及自建数据集上的大量实验表明,本文方法均达到当前最优性能,相较基线分别提升 F1 分数 2.6% 与 2.7% 以上;


2、方法

  图 1 展示了本文提出的对抗扩散框架总体结构,主要包含三大核心模块:(1)已训练的息肉检测器;(2)仅作用于背景的去噪器(BG-De);(3)检测器引导的对抗扩散攻击模块(DADA)。

  在推理过程中,迭代流程会在以下步骤间交替进行:首先通过 BG-De 进行去噪处理,接着根据检测器预测结果评估其可能引发的误判风险,最后利用 DADA 计算出的对抗扰动,在预设的兴趣区域对检测器实施干扰。
  
Figure 1 | 推理流程由三个关键模块组成:背景专用去噪器(BG-De)、经充分训练的息肉检测器(Detr)以及检测器引导的对抗扩散攻击模块(DADA)共同构成整体框架。具体而言,利用图像修复技术(inpainting)在真实图像的用户指定区域内生成新的阴性样本。BG-De 从纯阴性分布中采样,而 DADA 通过引导采样方向,使生成的视觉模式能够诱发检测器产生阳性响应,需指出的是,BG-De 与检测器的训练过程未在图中展示;

在这里插入图片描述
  

2.1、背景专用去噪器作为区域噪声匹配的基础负样本生成器

  BG-De 是扩散概率模型(Diffusion Probabilistic Model,DDPM)的一个变体,专门用于选择性去噪背景区域。与原始 DDPM 不同,BG-De 通过区域掩蔽将学习重点聚焦于背景区域。对于息肉检测训练样本 {x,mgtb}\{x, m_{gtb}\}{x,mgtb},其中 mgtbm_{gtb}mgtb 为二值掩码,其值为 1 表示息肉真实边界框(GT bounding boxes)内的像素,值为 0 表示框外像素,本文对损失函数作如下修正:(学背景区域噪声
在这里插入图片描述
  该方法使 BG-De 仅需对背景(负样本)分布进行建模,即使存在息肉样本时也是如此。值得注意的是,训练集仅包含息肉图像及其对应的 GT 边界框——这在检测任务中是标准做法,无需额外收集数据。

2.2、检测器引导的对抗扩散攻击:驱动普通背景向高价值假阳性样本演化

  基于训练好的 BG-De,逐步对初始噪声图进行去噪处理,以合成逼真的负样本内窥镜图像 x0x_0x0。去噪过程可表示为:(DDPM 采样步骤
在这里插入图片描述
  其中 μθ(xt,t)μ_θ(x_t,t)μθ(xt,t) 表示通过 BG-De 方法采样的均值,而 ε∼N(0,1)ε∼\mathcal N (0,1)εN(0,1) 用于重参数化。

  然而,生成的图像通常较为普通且不足以迷惑检测器,这限制了其训练价值。为解决这一问题,本文在每个去噪步骤中引入扰动 ηtη_tηt 来调整采样轨迹,引导 BG-De 生成超出检测器决策边界的图像。去噪过程变为:
在这里插入图片描述
  其中 ηtη_tηt 是一个可训练的变量,初始化为零矩阵。

  受对抗攻击方法启发,本文提出 DADA 模块,以充分训练的检测器为攻击目标,优化扰动,在用户自定义边界框 bbb 内诱导假阳性,从而生成具有误导性干扰特征的高难度阴性样本。具体地,将 xt−1x_{t−1}xt1 输入检测器,并将 bbb 视为“伪真实”(illusory GT)框,计算检测损失如下:
在这里插入图片描述
  其中 Lcls.\mathcal L_{cls.}Lcls.Lloc.\mathcal L_{loc.}Lloc. 分别表示分类损失和定位损失。p^σ(b)p̂_{σ(b)}p^σ(b)b^σ(b)\hat b_{σ(b)}b^σ(b) 分别代表对“虚幻”GT框 bbb 的预测多边形类别概率和边界框。

  预测框与伪真实框的匹配策略取决于检测器本身,例如 DETR 中所采用的匈牙利算法。随后,通过最小化检测损失对扰动进行优化,扰动方向 ηtη_tηt 则依据反向传播梯度进行更新:
在这里插入图片描述
  其中,sgn(⋅)sgn(·)sgn() 为符号函数,ααα 为极小步长。将 DADA 与 BG-De 相融合后,每一步降噪中的扰动持续引导 x0x_0x0 的生成,最终形成具有高度迷惑性的高价值阴性样本,显著干扰检测器判断。

2.3、保持上下文一致性的图像修复策略

  为提升生成图像在解剖结构上的保真度,本文采用了一种融合真实图像上下文的修复策略来指导局部假阳性生成。具体而言,在预定义区域内实施“攻击与修复”操作,而其余区域则保留为真实图像的噪声版本。修复区域的定义与第 2.2 节所述相同。最终去噪流程可表述如下:
在这里插入图片描述
  其中,mbm_bmb 为二值掩码,在边界框 bbb 内取值为 1,其余区域为 0。该策略将 DADA 与 BG-De 有机融合,于每一步降噪过程中引入扰动,以生成 x0x_0x0;该样本在保持视觉完整性的同时,最大化对检测器的干扰效果。最终,本文方法可在真实图像的局部区域内生成高价值阴性样本,同时完整保留全局上下文,如 图 2 所示。


3、实验与结果

3.1、数据集与评价指标

  (1)在 Kvasir 数据集和自建数据集上开展实验:Kvasir 数据集包含 1000 张息肉图像,通过提供的 GT 掩膜生成目标框。自建数据集包含 1516 张息肉图像,由当地医院两位资深内镜医师精心标注了 GT 框。两个数据集均按 8:1:1 的比例随机划分为训练集、验证集和测试集;

  (2)使用精确率(P)、召回率(R)和 F1 分数(F1)来评估检测性能;

3.2、实施细节

  (1)针对 BG-De 模型,基于传统 DDPM 实现模型架构,并在两块 RTX 4090 显卡上以 20 的 batch size 进行 320, 000 次迭代训练;

  (2)检测模块采用 YOLO 和 DETR 作为目标模型,均按照官方参数设置完成训练。训练集采用双折叠策略:交替使用其中一组进行 BG-De 训练,同时对另一组进行数据增强处理;

  (3)推理时将去噪步骤设为 1000 次,最终图像尺寸定为 256×256 像素,扰动步长(公式 5 中的 ααα )设为 0.003;

3.3、与 SOTA 方法比较

  
Table 1 | Kvasir 与私有数据集的定量对比:最佳性能以粗体标出;

在这里插入图片描述

  
Figure 2 | 不同方法合成图像的可视化:白色边界框标示了预定义的攻击/修复区域,为便于理解,本文展示了合成图像与原始图像之间的差异图 DDD

在这里插入图片描述

3.4、消融实验

  
Table 2 | 对两个关键组件,BG-De 和 DADA 的消融研究:

在这里插入图片描述

3.5、超参数选择

  
Table 3 | 扰动步长 ααα 的消融:↑ 和 ↓ 分别表示 “越高越好” 和 “越低越好”;

在这里插入图片描述


  好喜欢这篇文章的视角( •̀ ω •́ )✧

http://www.xdnf.cn/news/1134973.html

相关文章:

  • github上传大文件(多种解决方案)
  • Buffer Pool
  • 分布式系统高可用性设计 - 监控与日志系统
  • 能行为监测算法:低成本下的高效管理
  • LVS集群调度器
  • Python高级编程技巧探讨:装饰器、Patch与语法糖详解
  • 第六章 OBProxy 路由与使用运维
  • rLLM:用于LLM Agent RL后训练的创新框架
  • Git版本控制完全指南:从入门到精通
  • Nginx,MD5和Knife4j
  • NLP:LSTM和GRU分享
  • 人工智能之数学基础:神经网络之多样本矩阵参数求导
  • C++ - 仿 RabbitMQ 实现消息队列--sqlite与gtest快速上手
  • 光纤基础知识
  • lua(xlua)基础知识点记录一
  • IIS-网站报500.19错误代码0x8007000d问题解决
  • “重复”定义函数的睿智(Python/与ai助手“智普清言”深度交流)
  • Java后端开发核心笔记:分层架构、注解与面向对象精髓
  • java解析word文档
  • Linux 716 数据库迁移
  • x86版Ubuntu的容器中运行ARM版Ubuntu
  • 零基础学Vue3组件化开发
  • 统计功效是什么?
  • VR 污水厂初体验:颠覆传统认知​
  • 广州 VR 森林防火系统功能探究​
  • AI应用核心转向Context Engineering
  • 在UE中如何操作视图的大小,方位,移动
  • FPGA基础 -- Verilog 访问寄存器数组的指定位示例
  • 详解SPFA算法-单源最短路径求解
  • AI Agent开发学习系列 - langchain之LCEL(2):LCEL 链式表达解析