当前位置：首页 > news >正文

【论文阅读 | TIV 2024 | CDC-YOLOFusion：利用跨尺度动态卷积融合实现可见光-红外目标检测】

news 2025/7/23 7:17:32

论文阅读 | TIV 2024 | CDC-YOLOFusion：利用跨尺度动态卷积融合实现可见光-红外目标检测

1&&2. 摘要&&引言
- - 3. 方法
  - - A. 架构概述
    - B. 跨模态数据交换
    - C. 跨尺度动态卷积融合
    - - 跨尺度特征增强模块
      - 双动态卷积融合模块
    - D. 跨模态核交互损失
  - 4. 实验
  - - A. 数据集
    - B. 设置
    - C. 实验结果
    - D. 与最先进方法的比较
  - 5. 结论

在这里插入图片描述

题目：CDC-YOLOFusion: Leveraging Cross-scale Dynamic Convolution Fusion for Visible-Infrared Object Detection

期刊：IEEE Transactions on Intelligent Vehicles （TIV）

论文：paper

代码：code

年份：2024

1&&2. 摘要&&引言

由于能够深入挖掘可见光和红外特征，特征级融合方法在可见光 - 红外目标检测中表现出优异的性能。然而，大多数现有的特征级融合方法利用多个具有固定参数的卷积层来提取双模态特征，导致对多样化数据分布的适应性较低。

本文提出了一种基于跨尺度动态卷积的 YOLO 融合（CDC-YOLOFusion）网络，该网络引入了一种新颖的跨尺度动态卷积融合（CDCF）模块，以自适应地提取和融合与数据分布相关的双模态特征。

从技术上讲，CDC-YOLOFusion 首先设计了一种新颖的数据增强策略 “跨模态数据交换（CDS）”，用于在可见光和红外图像之间交换局部区域，有效捕捉局部区域内的跨模态相关性。在此基础上，所提出的 CDCF 通过引入差异注意力掩码，利用跨尺度增强特征辅助动态卷积预测，重点提取两种模态之间的差异特征。

我们的 CDCF 在一种新颖的跨模态核交互损失的有效引导下，旨在让学习到的核同时关注每种模态的共同显著特征和独特特征，以生成全面的特征。在三个具有代表性的检测数据集上进行的大量实验表明，CDCF 可以轻松嵌入到现有流水线中，获得一致的性能提升。

在这里插入图片描述

图1. 我们提出的CDCF模块（见红色箭头）与现有动态卷积方法[13]（见蓝色箭头）的比较。

3. 方法

A. 架构概述

在这里插入图片描述

图2. 所提出的CDC-YOLOFusion的架构，由四个部分组成：跨模态数据交换（CDS）模块、特征提取骨干网络、跨尺度动态卷积融合（CDCF）模块和检测头。
传统数据增强技术多关注单模态数据，而CDS旨在提高模型对模态差异的理解，促进跨模态相关性学习。其通过将红外图像中的局部块替换为可见光图像中的对应块，生成含混合信息的图像输入特征提取分支。

图 2 展示了我们提出的 CDC-YOLOFusion 的流水线，它扩展了 YOLO v5 架构，采用双分支 CSPDarknet 骨干网络分别提取多尺度的可见光和红外特征。值得注意的是，我们引入了两个新颖的组件来提高检测性能：首先，我们引入了跨模态数据交换（CDS）模块用于预处理输入图像。CDS 促进有效的双模态数据交换和信息互补，产生混合的双模态数据，鼓励模型更好地探索跨模态特征。其次，我们引入了跨尺度动态卷积融合（CDCF）模块来促进多尺度双模态特征融合。与传统的卷积操作不同，CDCF 采用从输入数据中自适应学习的动态卷积核来捕捉更有价值的信息。此外，我们设计了一种新颖的 “跨模态核交互” 损失，通过利用双模态核的固有特征分布来引导双模态核的学习，从而生成用于稳健特征提取的信息核。

B. 跨模态数据交换

在这里插入图片描述

图3. 一个示例，用于说明传统数据增强与我们的跨模态数据交换之间的差异。

传统的数据增强技术，如裁剪（如图 3 所示），广泛应用于目标检测任务，有助于丰富训练数据集并增强模型的泛化能力。然而，现有的增强方法主要关注单模态数据，忽略了对跨模态增强技术的探索。相反，深入研究跨模态增强策略有望有效揭示不同模态之间的相关性，从而为特征提取网络提取稳健特征提供更好的指导。出于这一目的，我们引入了跨模态数据交换（CDS），旨在提高模型对模态差异的理解，并促进跨模态相关性的学习。图 3 展示了一个示例来说明 CDS 的效果，其中红外图像中的一个局部块被可见光图像中的对应块替换，从而生成一个混合信息的红外图像，随后将其输入到相应的特征提取分支以探索跨模态特征提取。

具体来说，给定一对高度为 H、宽度为 W 的可见光 - 红外图像 $I_{v}$ 、 $Iir∈RH×WI_{ir} \in \mathbb{R}^{H \times W}$ ，我们首先为它们分别构建两个交换掩码 $M_{v}$ 、 $Mir∈RH×WM_{ir} \in \mathbb{R}^{H \times W}$ ，其中两个掩码中的每个初始元素都设置为 0。接下来，我们将每个掩码划分为 $\times N$ 个局部区域，并随机选择 N 个区域作为交换候选，将交换候选中的元素重置为 1。因此，它生成两个交换掩码来指导跨模态数据交换，实现方式如下（见图 3）：

$Imswap=Im⊙Mm+Im‾⊙(1−Mm)(1)I_{m}^{swap}=I_{m} \odot M_{m}+I_{\overline{m}} \odot\left(1-M_{m}\right) \tag{1}$

其中 $m$ 、 $m‾∈{v,ir}\overline{m} \in\{v, ir\}$ ， $⊙\odot$ 表示元素级乘法， $I_{m}^{swap}$ 表示通过 CDS 生成的图像。CDS 执行跨模态部分数据交换，生成同时包含两种模态信息的混合图像。因此，与通过破坏单模态数据进行的传统裁剪和马赛克数据增强操作相比，CDS 提供了更丰富的训练数据，同时有效保留了多模态图像的统一高级语义。它能够巧妙地捕捉局部区域内的跨模态相关性，促进更丰富的跨模态互补细节的吸收。这反过来又增强了网络在训练过程中的鲁棒性。

C. 跨尺度动态卷积融合

在这里插入图片描述

图4. 我们提出的跨尺度动态卷积融合（CDCF）模块的详细架构，该模块由两个组件组成：跨尺度特征增强（CSFE）模块和双动态卷积融合（DDCF）模块。

我们引入了跨尺度动态卷积融合（CDCF）模块，该模块通过利用每种模态数据的固有特征，独立学习适用于该模态数据的自适应核。图 4 展示了我们提出的 CDCF 模块的架构，它包括两个主要组件：跨尺度特征增强（CSFE）模块和双动态卷积融合（DDCF）模块。

跨尺度特征增强模块

我们的方法没有直接拼接双模态特征 [13]，而是引入了跨尺度特征增强（CSFE）模块来生成增强的可见光和红外特征，用于预测动态卷积核。如图 4 所示，当给定第 l 层的一对可见光和红外特征 $T_{v}$ 、 $Tir∈RH×W×CT_{ir} \in \mathbb{R}^{H \times W \times C}$ ，以及 CDCF 生成的第 (l-1) 层的融合特征 $Tp∈R2H×2W×C/2T_{p} \in \mathbb{R}^{2H \times 2W \times C/2}$ 时，CSFE 首先使用 3×3 卷积核对 $T_{p}$ 进行下采样，以获得调整大小的融合特征 $Tp′∈RH×W×CT_{p'} \in \mathbb{R}^{H \times W \times C}$ 。由于 $T_{p}$ 带来了更大尺度特征图提供的更丰富的特征，有助于通过跨尺度特征融合来指导当前层特征的增强。然后，受 [48] 的启发，我们分别对 $T_{v}$ 、 $T_{ir}$ 和 $T_{p'}$ 采用 X 注意力和 Y 注意力机制。理论上，X/Y 注意力旨在探索高度 / 宽度与通道之间的复杂相关性，包括沿高度 / 宽度方向计算特征平均值，公式如下：

$Ttx=1H∑0≤i<HTt(i,w)Tty=1W∑0≤j<WTt(h,j)(2)\begin{aligned} & T_{t}^{x}=\frac{1}{H} \sum_{0 \leq i<H} T_{t}(i, w) \\ & T_{t}^{y}=\frac{1}{W} \sum_{0 \leq j<W} T_{t}(h, j) \end{aligned} \tag{2}$

其中 $\in\{p', ir, v\}$ ， $\in[1, W]$ ， $\in[1, H]$ ， $T_{t}(i, j)$ 表示位置 $[i, j]$ 处的特征向量。因此，我们的方法为 X 注意力生成三个注意力特征图 $T_{v}^{x}$ 、 $T_{ir}^{x}$ 、 $Tp′x∈RH×1×CT_{p'}^{x} \in \mathbb{R}^{H \times 1 \times C}$ ，为 Y 注意力生成 $T_{v}^{y}$ 、 $T_{ir}^{y}$ 、 $Tp′y∈R1×W×CT_{p'}^{y} \in \mathbb{R}^{1 \times W \times C}$ 。与常用的自注意力机制 [49] 相比，CSFE 中使用的跨尺度 X/Y 注意力能够更有效地探索相对位置信息和通道注意力信息之间的复杂相关性，同时仅略微增加计算和参数开销，在高度和宽度方向上产生显著的特征图，作为预测动态卷积核的指导。

接下来，对于 X 注意力和 Y 注意力特征 $T_{t}^{x}$ 和 $T_{t}^{y}$ ，我们计算其 Gram 矩阵 $Gtx∈RH×HG_{t}^{x} \in \mathbb{R}^{H \times H}$ 和 $Gty∈RW×WG_{t}^{y} \in \mathbb{R}^{W \times W}$ ，以获得特征图内的高度 / 宽度相关信息，然后将它们分别与 $T_{t}^{x}$ 和 $T_{t}^{y}$ 相乘，丰富通道与高度 / 宽度之间的关系捕捉，公式如下：

$Gtx=Ttx×(Ttx)T,Gty=Tty×(Tty)TT^tx=Gtx×Ttx,T^ty=Gty×Tty(3)\begin{gathered} G_{t}^{x}=T_{t}^{x} \times\left(T_{t}^{x}\right)^{T}, G_{t}^{y}=T_{t}^{y} \times\left(T_{t}^{y}\right)^{T} \\ \hat{T}_{t}^{x}=G_{t}^{x} \times T_{t}^{x}, \hat{T}_{t}^{y}=G_{t}^{y} \times T_{t}^{y} \end{gathered} \tag{3}$

其中 $\in\{p', ir, v\}$ ， $T^tx∈RH×1×C\hat{T}_{t}^{x} \in \mathbb{R}^{H \times 1 \times C}$ 和 $T^ty∈R1×W×C\hat{T}_{t}^{y} \in \mathbb{R}^{1 \times W \times C}$ 分别表示 X 和 Y 方向上的相关性增强注意力图。之后，我们利用跨尺度融合信息来增强每种模态，表示为：

$T‾mx=C1([T^mx,T^p′x])T‾my=C2([T^my,T^p′y])(4)\begin{aligned} & \overline{T}_{m}^{x}=C_{1}\left(\left[\hat{T}_{m}^{x}, \hat{T}_{p'}^{x}\right]\right) \\ & \overline{T}_{m}^{y}=C_{2}\left(\left[\hat{T}_{m}^{y}, \hat{T}_{p'}^{y}\right]\right) \end{aligned} \tag{4}$

其中 $\in\{ir, v\}$ ， $C_{1}$ 和 $C_{2}$ 是两个卷积层，[] 表示拼接操作。 $T‾mx∈RH×1×C\overline{T}_{m}^{x} \in \mathbb{R}^{H \times 1 \times C}$ 和 $T‾my∈R1×W×C\overline{T}_{m}^{y} \in \mathbb{R}^{1 \times W \times C}$ 分别是 X 和 Y 方向上的跨尺度增强单模态特征图。为了使 $T‾mx\overline{T}_{m}^{x}$ 和 $T‾my\overline{T}_{m}^{y}$ 能够在两个方向上拼接以进行信息交互，我们将 $T‾mx\overline{T}_{m}^{x}$ 重塑为 $T‾mx′∈R1×H×C\overline{T}_{m}^{x'} \in \mathbb{R}^{1 \times H \times C}$ 。然后，我们将它们拼接以实现信息交互，获得激活的注意力图 $Attm∈R1×(W+H)×CAtt_{m} \in \mathbb{R}^{1 \times (W+H) \times C}$ ，表示宽度、高度和通道中的显著特征图：

$Attm=[Attmx′,Attmy]=g([T‾mx′,T‾my])(5)Att_{m}=\left[Att_{m}^{x'}, Att_{m}^{y}\right]=g\left(\left[\overline{T}_{m}^{x'}, \overline{T}_{m}^{y}\right]\right) \tag{5}$

其中 $g ()$ 是由卷积层、批归一化层和激活函数组成的函数。 $Attmx′∈R1×H×CAtt_{m}^{x'} \in \mathbb{R}^{1 \times H \times C}$ 和 $Attmy∈R1×W×CAtt_{m}^{y} \in \mathbb{R}^{1 \times W \times C}$ 表示交互后宽度、高度和通道中的新显著特征图。然后我们将 $Att_{m}^{x'}$ 重塑为 $Attmx∈RH×1×CAtt_{m}^{x} \in \mathbb{R}^{H \times 1 \times C}$ 。最后，这两个注意力图作用于输入特征 $T_{m}$ 以获得增强特征 $E_{m}$ ，表示为：

$Em=Attmx⊙Attmy⊙(Tm+Tp′)+Tm(6)E_{m}=Att_{m}^{x} \odot Att_{m}^{y} \odot\left(T_{m}+T_{p'}\right)+T_{m} \tag{6}$

双动态卷积融合模块

给定一个高度为 H、宽度为 W、通道数为 $C_{in}$ 的输入特征 $\in \mathbb{R}^{H \times W \times C_{in}}$ ，以及 V 个卷积核 $K_{1}, K_{2}, ..., K_{V}$ ，现有的动态卷积方法 [40] 从 X 中构建四个特征注意力掩码，包括空间注意力掩码 $αs∈RV×k×k\alpha_{s} \in \mathbb{R}^{V \times k \times k}$ 、输入通道注意力掩码 $αc∈RV×Cin\alpha_{c} \in \mathbb{R}^{V \times C_{in}}$ 、输出通道注意力掩码 $αf∈RV×Cout\alpha_{f} \in \mathbb{R}^{V \times C_{out}}$ 和核注意力掩码 $αw∈RV\alpha_{w} \in \mathbb{R}^{V}$ ，公式如下：

$αt=ϕt(x)(7)\alpha_{t}=\phi_{t}(x) \tag{7}$

其中 $\in\{s, c, f, w\}$ ， $ϕ\phi$ 表示由全局平均池化层（GAP）、全连接层（FC）、ReLU 激活函数和头部分支组成的序列操作。然后，将这些掩码应用于 V 个卷积核，得到聚合的动态卷积核 K，计算如下：

$K=αw1⊙αf1⊙αc1⊙αs1⊙K1+⋯+αwV⊙αfV⊙αcV⊙αsV⊙KV(8)\begin{gathered} K=\alpha_{w_{1}} \odot \alpha_{f_{1}} \odot \alpha_{c_{1}} \odot \alpha_{s_{1}} \odot K_{1}+\cdots+ \\ \alpha_{w_{V}} \odot \alpha_{f_{V}} \odot \alpha_{c_{V}} \odot \alpha_{s_{V}} \odot K_{V} \end{gathered} \tag{8}$

其中 $αtv\alpha_{t_{v}}$ 表示 $αt\alpha_{t}$ 中的第 v 个元素。得到的动态卷积核 $\in \mathbb{R}^{k \times k \times C_{in} \times C_{out}}$ 可以通过探索各种注意力维度动态适应特征 X，从而帮助模型提取增强的目标检测特征。在此基础上，我们的方法进一步深入研究可见光和红外特征之间的差异，并引入特征差异注意力掩码 $αd\alpha_{d}$ 。这一添加使我们的卷积核能够更好地探索模态间的独特性，并促进互补特征的提取。具体来说，给定一对输入的可见光和红外特征 $E_{v}, E_{ir})$ ，我们的方法首先采用模态差异提取网络生成差异注意力掩码 $αdv/ir∈RV×k×k\alpha_{d}^{v/ir} \in \mathbb{R}^{V \times k \times k}$ ，表示为：

$αdm=σ(hA(Em−Em‾)+hM(Em−Em‾))(9)\alpha_{d}^{m}=\sigma\left(h_{A}\left(E_{m}-E_{\overline{m}}\right)+h_{M}\left(E_{m}-E_{\overline{m}}\right)\right) \tag{9}$

其中 $m$ 、 $m‾∈{v,ir}\overline{m} \in\{v, ir\}$ ， $σ\sigma$ 表示 sigmoid 函数， $h_{A}$ 是由多层感知机（MLP）和全局最大池化层组成的网络， $h_{M}$ 是由 MLP 和全局平均池化层组成的网络，MLP 是由 1×1 卷积、ReLU 激活函数和另一个 1×1 卷积组成的独特感知机网络。因此，通过将掩码 $αd\alpha_{d}$ 纳入公式（8），我们得到依赖于模态的动态卷积核 $K^{m}$ 如下：

$Km=αw1m⊙αf1m⊙αc1m⊙αs1m⊙αd1m⊙K1m+⋯+αwVm⊙αfVm⊙αcVm⊙αsVm⊙αdVm⊙KVm(10)\begin{array}{r} K^{m}=\alpha_{w_{1}}^{m} \odot \alpha_{f_{1}}^{m} \odot \alpha_{c_{1}}^{m} \odot \alpha_{s_{1}}^{m} \odot \alpha_{d_{1}}^{m} \odot K_{1}^{m}+\cdots+ \\ \alpha_{w_{V}}^{m} \odot \alpha_{f_{V}}^{m} \odot \alpha_{c_{V}}^{m} \odot \alpha_{s_{V}}^{m} \odot \alpha_{d_{V}}^{m} \odot K_{V}^{m} \end{array} \tag{10}$

其中 $αwvm\alpha_{w_{v}}^{m}$ 、 $αfvm\alpha_{f_{v}}^{m}$ 、 $αcvm\alpha_{c_{v}}^{m}$ 、 $αsvm\alpha_{s_{v}}^{m}$ 分别表示模态 m 上的核注意力掩码、输出通道注意力掩码、输入通道注意力掩码和空间注意力掩码中的第 v 个元素。具体来说，我们的方法将公式（6）中的 $E_{m}$ 输入到公式（7）中以计算这些参数，包括空间注意力掩码 $αsm∈RV×k×k\alpha_{s}^{m} \in \mathbb{R}^{V \times k \times k}$ 、输入通道注意力掩码 $αcm∈RV×Cin\alpha_{c}^{m} \in \mathbb{R}^{V \times C_{in}}$ 、输出通道注意力掩码 $αfm∈RV×Cout\alpha_{f}^{m} \in \mathbb{R}^{V \times C_{out}}$ 、核注意力掩码 $αwm∈RV\alpha_{w}^{m} \in \mathbb{R}^{V}$ 和差异注意力掩码 $αdm∈RV×k×k\alpha_{d}^{m} \in \mathbb{R}^{V \times k \times k}$ ，上述注意力掩码沿第一维度分为 V 个子掩码，即 $αsvm∈RK×K\alpha_{s_{v}}^{m} \in \mathbb{R}^{K \times K}$ 、 $αcvm∈RCin\alpha_{c_{v}}^{m} \in \mathbb{R}^{C_{in}}$ 、 $αfvm∈RCout\alpha_{f_{v}}^{m} \in \mathbb{R}^{C_{out}}$ 、 $αwvm∈R\alpha_{w_{v}}^{m} \in \mathbb{R}$ 和 $αdvm∈RK×K\alpha_{d_{v}}^{m} \in \mathbb{R}^{K \times K}$ 。将来自五种注意力掩码的 V 个子掩码与 V 个卷积核聚合后，我们得到如公式（10）所示的动态卷积核 $K^{m}$ 。接下来，我们将依赖于模态的动态卷积核 $K^{m}$ 与相应的模态特征相乘，得到增强特征：

$Fm=Em∗Km(11)F_{m}=E_{m} * K^{m} \tag{11}$

其中 * 表示卷积操作。最后，我们对两个卷积结果 $F_{ir}$ 和 $F_{v}$ 进行互补融合，它们包含模态属性和模态间可变性，确保融合结果 $F_{f}$ 包含模态共性和独特可变性。具体公式如下：

$G^ir,G^v=Softmax([Fir,Fv])Ff=G^ir⊙Fir+Fir+G^v⊙Fv+Fv(12)\begin{gathered} \hat{G}_{ir}, \hat{G}_{v}=Softmax\left(\left[F_{ir}, F_{v}\right]\right) \\ F_{f}=\hat{G}_{ir} \odot F_{ir}+F_{ir}+\hat{G}_{v} \odot F_{v}+F_{v} \end{gathered} \tag{12}$

与从拼接的多模态特征生成动态卷积核相比，我们的方法采用增强的单模态特征作为生成动态卷积核 $K_{v}$ 和 $K_{ir}$ 的原始数据。这种方法最大限度地保留了不同模态输入数据中的独特特征，使核能够专注于特定于模态的特征。此外，差异特征注意力的引入使卷积核对模态间差异更加敏感，使它们能够选择性地提取差异特征以进行互补融合。

D. 跨模态核交互损失

为了通过 CDCF 有效引导动态卷积核的生成，我们的方法采用监督学习，并引入了一种新颖的损失函数 “核交互损失（KI Loss）”。给定从不同模态中学习到的两个待学习核 $K_{v}$ 和 $K_{ir}$ ，我们的方法旨在开发能够捕捉两种模态的共同显著特征，同时识别每种模态中独特显著特征的核函数。这使得能够准确识别双模态数据中的互补特征。基于这一思想，我们的方法利用 Jensen-Shannon（JS）散度 [50] 来衡量分布之间的差异。JS 散度评估两个分布之间的相似性，当它们相似时接近零，不相似时达到 1。通过利用这一散度度量，我们的方法计算 $K_{v}$ 和 $K_{ir}$ 之间的 JS 值，旨在最小化分布差异，以便两个核都能有效捕捉两种模态的共同特征，表示为：

$Lc=Djs(Kv,Kir)(13)\mathcal{L}_{c}=D_{js}\left(K_{v}, K_{ir}\right) \tag{13}$

同时，我们的方法旨在让 $K_{v}$ 和 $K_{ir}$ 分别捕捉可见光和红外数据中的独特特征。我们使用两个核之间的差异来表示这种独特特征捕捉，记为 $S_{v|ir}$ 和 $S_{ir|v}$ ，分别对应可见光和红外数据中的独特特征检测。这种关系表示为：

$Sv∣ir=sign(Kv−Kir),Sir∣v=sign(Kir−Kv)(14)S_{v|ir}=sign\left(K_{v}-K_{ir}\right), S_{ir|v}=sign\left(K_{ir}-K_{v}\right) \tag{14}$

其中 $s i g n ()$ 是符号函数，将所有负值设为零。因此，我们的方法期望 $S_{v|ir}$ 和 $S_{ir|v}$ 表现出具有高 JS 值的不同分布，有效捕捉两种模态的独特特征。最终，我们的核交互损失 $L_{KI}$ 公式如下：

$LKI=μDjs(Kv,Kir)−(1−μ)Djs(Sv∣ir,Sir∣v)(15)\mathcal{L}_{KI}=\mu D_{js}\left(K_{v}, K_{ir}\right)-(1-\mu) D_{js}\left(S_{v|ir}, S_{ir|v}\right) \tag{15}$

其中 $μ\mu$ 是平衡权重。 $L_{KI}$ 要求学习到的动态卷积核捕捉共同的显著特征，同时关注每种模态的独特特征。这种双重关注有助于提取更全面的特征，从而提高模型的目标检测性能。

实现：所提出的跨尺度动态卷积融合模块在各种特征尺度上运行，生成多尺度融合特征，这些特征被输入到预测头以产生最终的检测结果。在训练过程中，我们使用由两个主要组件组成的复合损失函数：目标检测损失（包括边界框回归 $L_{bbox}$ 、目标分类 $L_{cls}$ 和目标置信度 $L_{obj}$ ）和 CDCFM 中的 KI 损失 $L_{KI}$ 。最终的损失函数公式如下：

$L=λLKI+Lbbox+Lcls+Lobj(16)\mathcal{L}=\lambda \mathcal{L}_{KI}+\mathcal{L}_{bbox}+\mathcal{L}_{cls}+\mathcal{L}_{obj} \tag{16}$

其中 $λ\lambda$ 是平衡权重。

4. 实验

A. 数据集

我们在 VEDAI [14]、FLIR [15] 和 LLVIP [16] 上进行实验，以评估我们的 CDC-YOLOFusion。

VEDAI [14]：该航空数据集主要用于车辆检测，存在小目标尺寸、多方向性、光照和阴影变化、镜面反射及遮挡等挑战。提供九类严格对齐的可见光和红外图像对，含1250对两种分辨率（1024×1024和512×512）的图像对。我们使用更高分辨率，其中1089对用于训练，161对用于测试。
FLIR [15]：为多光谱目标检测带来挑战，涵盖白天和黑夜条件下的三类（“人”“车”“自行车”）。原始数据集图像对未对齐，本研究使用[51]中的对齐版本，含5142对可见光-红外图像对，其中4129对用于训练，1013对用于测试。
LLVIP [16]：该大规模行人数据集在低光环境下拍摄，多数图像处于极暗环境。所有可见光-红外图像对在空间和时间上严格对齐，含15488对图像，12025对用于训练，其余3463对用于测试。

B. 设置

我们的方法基于CSPDarknet53在YOLOv5架构上构建双分支特征提取骨干网络，分别提取多尺度的可见光和红外特征。在CDCF模块中，跨模态核交互损失 $L_{KI}$ 中参数 $μ=0.6\mu=0.6$ 。第一个CDCF层仅使用DDCF模块融合骨干网络特征；从第二层开始，CDCF在通过DDCF融合前使用CSFE增强特征。