当前位置：首页 > web >正文

ultralytics 中的 RT-DETR 之模型结构解析

web 2025/7/2 2:42:28

在先前的博客中，博主介绍了RT-DETR模型（官方代码），有小伙伴问有没有ultralytics框架中的RT-DETR模型的介绍，今天，它来了。
以下是RT-DETR-ResNet50混合检测模型的逐层解析，包含各模块作用、特征维度变化及核心概念说明：
在这里插入图片描述

参数说明：
ResNetLayer参数格式 = [输入通道, 输出通道, 步长, 是否使用基本块, 块重复次数]
典型输出特征图尺寸：

P2: (H/2,W/2), P3: (H/4,W/4), P4: (H/8,W/8), P5: (H/16,W/16)

其中，P3、P4、P5分别对应结构图中的 S3、S4、S5。

这里，可能会有小伙伴疑问，为啥输入维度似乎并不符合呢，如最后一层中，明明写着输入维度是1024，输出维度是512，为何博主却说输入维度是256呢，原因如下：

在ResNet架构中，输入通道数并非直接对应参数中的第一个数值，而是由前序层的输出决定。

ResNetLayer[1024,512,2,False,3] 参数含义为：

维度阶段	数值	说明
输入维度	(B,256,H/4,W/4)	来自前一层的输出通道数
首层处理	→ 512通道	通过1x1卷积将通道数从256扩展到512（参数中的输出通道数）
中间Bottleneck	512→1024→512	每个Bottleneck块执行通道压缩→特征提取→通道扩展
最终输出	(B,512,H/8,W/8)	经过步长2的下采样后分辨率减半

通道扩展机制
Bottleneck结构中包含三阶段通道变化：
```
1x1卷积：256 → 512（通道压缩）
3x3卷积：512 → 512（特征提取）
1x1卷积：512 → 512（保持通道）
```
参数中的1024表示中间最大扩展通道数（实际未达到该值）
维度继承原则
当前层的输入通道数始终继承自前一层的输出通道数，与当前层参数中的数值无关
下采样实现
通过第一个Bottleneck块的3x3卷积步长2实现分辨率减半：
```
输入尺寸：H/4 × W/4 → 输出尺寸：H/8 × W/8
```

该设计通过调整Bottleneck的通道缩放比例，在保持性能的同时显著降低了计算量。

注意，上采样模块只进行特征图大小的变化，并不会引起通道维度发生改变

[[16,19,22], 1, RTDETRDecoder, [nc]]  # 输入来自16(P2)、19(P4)、22(P5)层

组件	功能描述
查询生成器	基于特征图生成100个初始查询（learned anchors）
交叉注意力层	计算查询与多尺度特征的空间关联（类似DETR的可变形注意力）
预测头	输出分类得分(4类)和边界框坐标(xywh)

输入特征图	分辨率	通道数	处理方式
P2	(H/2,W/2)	256	双线性插值到统一分辨率后拼接
P4	(H/4,W/4)	256
P5	(H/8,W/8)	256
输出	(B,100,6)	-	100个预测框，每个包含4类得分+坐标

从结构上看，RT-DETR有以下几点创新：

混合注意力机制
AIFI模块融合了通道注意力和空间注意力，公式表达：
```
Output = Conv(SpatialAttn(ChannelAttn(Input)))
```
RepC3优化
相比标准C3模块，采用重参数化技术（训练时多分支，推理时合并），计算量减少40%
动态特征选择
RTDETRDecoder通过可变形注意力机制，自动学习不同尺度特征的重要性权重