当前位置：首页 > news >正文

【YOLO11改进】改进Conv、颈部网络STFEN、以及引入PIOU用于小目标检测！

news 2025/7/2 5:12:43

改进后的整体网络架构

在这里插入图片描述

改进一：RFD模块（Conv）

YOLOv11模型的跨步卷积下采样虽然快速聚合了局部特征，并且实现了较高的计算效率，但其固有的信息压缩机制会导致细粒度特征的不可逆丢失。针对特征保留与计算效率的平衡问题，本文采用RFD模块替换跨步卷积下采样模块。RFD模块通过多路径下采样策略的协同工作，实现特征信息的最大化保留，并提高下采样特征的鲁棒性。

RFD模块采用双分支并行处理结构实现特征信息的互补性提取，结构如图2所示。主分支通过分组卷积（Group Convolution，GConv）初步提取特征，随后并行使用深度可分离卷积（Depthwise Separable Convolution，DWConv）和最大池化处理提取特征并调整特征图大小，实现高效特征压缩。辅助分支则使用空间到深度卷积（Space - to - Depth Convolution，SPDConv）构建无损特征通路，通过像素重组技术将空间维度信息完整转移至通道维度，有效保留原始特征信息。经过双分支处理的特征图在通道维度叠加后，通过1×1卷积实现通道维度的信息融合与特征压缩，在确保信息完整性的同时减少模型计算量。

在这里插入图片描述
图2 RFD模块结构

SPDConv模块结构如图3所示，其将常规下采样过程解耦为2个阶段，先通过隔像素点提取像素组成新的特征图沿空间维度堆叠，随后经过1×1的卷积进行通道维度的压缩。

在这里插入图片描述
图3 SPDConv模块结构

改进二：STFEN网络（颈部）

骨干网络中浅层的特征图因感受野较小而保留了丰富的细节特征信息，而深层的特征图则通过逐级抽象获得了更强的语义表征能力[14]，这种多尺度特征的互补性为小目标检测提供了重要理论依据。然而，直接融合浅层大尺度特征图会导致特征金字塔的参数量激增，显著降低模型的推理速度。同时，大尺度特征图包含大量背景噪声，容易导致有效信息被噪声所淹没[3]。针对上述问题，本文设计STFEN网络替换特征金字塔结构的颈部网络。

将骨干网络中C3K2模块输出的160×160大小的特征图进行SPDConv下采样，将特征图的空间尺寸降至80×80。随后，将处理后的特征与颈部网络中C3K2模块输出的80×80大小的特征图进行通道维度融合。为进一步提升特征融合效能，受CSPNet[15]和OKNet[16]网络模块的启发，本文设计跨阶段部分融合（Cross Stage Partial Fusion，CSPF）模块，结构如图4所示。

在这里插入图片描述 图4 CSPF模块结构

CSPF模块包括特征压缩、分治融合与通道重构3个环节。输入特征通过1×1卷积进行通道维度压缩，随后将特征图沿通道轴拆分为2个子特征图y1和y2。y1送入OKM中进行多尺度特征提取，y2作为跨阶段直连特征保留原始信息。二者在通道维度拼接后，再经1×1卷积实现通道数适配，最终输出融合后的优化特征。该设计通过特征拆分策略将计算资源集中于子特征图y1，同时利用子特征图y2实现特征复用，有效减少大尺度特征引入带来的冗余计算问题。

OKM由局部分支、大感受野分支和全局分支3个分支构成，如图5所示。局部分支采用1×1DWConv聚焦细粒度纹理特征；大感受野分支通过堆叠不同尺寸的DWConv模块获取较大的感受野，捕捉不同方向的上下文信息；全局分支引入双域通道注意力模块（Dual-domain Channel Attention Module，DCAM）及基于频域的空间注意力模块（Frequency-based Spatial Attention Module，FSAM），通过频域与空间域的联合建模实现特征增强。

在这里插入图片描述
图5 OKM结构

DCAM及FSAM结构如图6所示。DCAM对输入特征进行快速傅里叶变换（Fast Fourier Transform，FFT），在频域使用全局平均池化（Global Average Pooling，GAP）对频谱特征进行通道维度的选择性增强，随后经逆快速傅里叶变换（Inverse Fast Fourier Transform，IFFT）至空间域进行二次空间域通道调制，这种双域交替处理机制能够同时捕捉频域全局结构特征与空间域语义信息。FSAM将经过FFT后的频域特征与可学习卷积核进行频域交互，生成的空间注意力权重经IFFT映射回原始空间，这种频域处理方式特别强化了对图像高频纹理与边缘细节的感知能力，为小目标检测提供了关键的细微特征支持。
在这里插入图片描述

图6 DCAM和FSAM结构

改进三：PIoU损失函数

YOLOv11使用解耦头结构实现分类与定位任务的独立预测，其损失函数由分类损失和定位损失组成。在定位损失方面，YOLOv11融合了分布焦点损失函数和CIoU损失函数，通过加权求和组成总损失函数，其中CIoU损失函数权重占比最大以强化定位精度。CIoU损失函数通过综合考虑交并比、中心点距离及长宽比3项几何因素，使训练过程中引导锚框快速逼近真实框。然而，该函数中距离惩罚项的计算方式存在固有缺陷，即以锚框与真实框的公共最小包围框的斜边长度的平方为分母，以锚框与真实框的中心点距离的平方为分子，这种数学表达在训练过程中会使锚框通过膨胀尺寸而非精准位移来逼近真实框，导致模型收敛速度减缓。针对上述问题，本文引入PIoU进行优化：

$L_{PIoU} = 2 - I_{IoU} - \exp(-P^2)$ (1)