【高校论文】DFORMER重新思考用于语义分割的RGBD表示学习[南开国防科大]
【高校论文】DFORMER重新思考用于语义分割的RGBD表示学习[南开&国防科大]
文章目录
- 前言
- 正文
- 创新点
- 解决的问题
- 实验验证
- 总结
- 参考
前言
本文介绍了DFormer,一种新的RGB-D预训练框架,用于学习可迁移的RGB-D表示以应用于语义分割任务12。
正文
创新点
DFormer的两个关键创新点是:
- 不像先前工作那样使用RGB预训练主干网络编码RGB-D信息,而是使用ImageNet-1K中的图像-深度对进行主干网络的预训练,从而赋予DFormer编码RGB-D表示的能力;
- DFormer包含一系列专门设计的RGB-D块,用于通过新颖的构建块设计同时编码RGB和深度信息。实验结果表明,DFormer在两项流行的RGB-D任务(即RGB-D语义分割和RGB-D显著目标检测)上取得了最新的最佳性能,计算成本仅为当前最佳方法的一半。
解决的问题
具体来说,DFormer通过以下方式解决了现有方法中存在的问题:
- 避免了RGB预训练主干网络对深度图中3D几何关系的不匹配编码;
- 在预训练过程中,在构建块内建立RGB和深度特征之间的交互,减少了主干网络外部的重交互模块;
- 观察到深度信息只需要少量通道来编码,从而有效减少了模型大小。
实验验证
在实验部分,论文作者展示了DFormer在两个RGB-D语义分割数据集和五个RGB-D显著目标检测数据集上的优越性能。例如,DFormer-L在NYU Depthv2数据集上达到了57.2%的mIoU,而参数和计算量分别仅为39.0M和65.7G Flops。相比之下,最近的最佳方法CMX(MiT-B2)使用66.6M参数和67.6G Flops仅能达到54.4%的mIoU。
总结
论文作者进行了消融研究,分析了DFormer各组件的有效性。实验结果表明,RGB-D预训练对于提升分割准确性至关重要,且DFormer的解码器只需使用RGB特征即可高效融合两种模态的信息,进一步证明了所提框架和构建块更适合RGB-D分割任务。
参考
VCIP-RGBD/DFormer: [CVPR 2025]DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation && [ICLR 2024] DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation ↩︎
VCIP-RGBD/RGBD-Pretrain: RGBD Pretraining code used in DFormer [ICLR 2024] ↩︎