当前位置: 首页 > news >正文

【高校论文】DFORMER重新思考用于语义分割的RGBD表示学习[南开国防科大]

【高校论文】DFORMER重新思考用于语义分割的RGBD表示学习[南开&国防科大]

文章目录

  • 前言
  • 正文
    • 创新点
    • 解决的问题
    • 实验验证
  • 总结
  • 参考

前言

本文介绍了DFormer,一种新的RGB-D预训练框架,用于学习可迁移的RGB-D表示以应用于语义分割任务12

正文

创新点

DFormer的两个关键创新点是:

  1. 不像先前工作那样使用RGB预训练主干网络编码RGB-D信息,而是使用ImageNet-1K中的图像-深度对进行主干网络的预训练,从而赋予DFormer编码RGB-D表示的能力;
  2. DFormer包含一系列专门设计的RGB-D块,用于通过新颖的构建块设计同时编码RGB和深度信息。实验结果表明,DFormer在两项流行的RGB-D任务(即RGB-D语义分割和RGB-D显著目标检测)上取得了最新的最佳性能,计算成本仅为当前最佳方法的一半。

解决的问题

具体来说,DFormer通过以下方式解决了现有方法中存在的问题:

  1. 避免了RGB预训练主干网络对深度图中3D几何关系的不匹配编码;
  2. 在预训练过程中,在构建块内建立RGB和深度特征之间的交互,减少了主干网络外部的重交互模块;
  3. 观察到深度信息只需要少量通道来编码,从而有效减少了模型大小。

实验验证

在实验部分,论文作者展示了DFormer在两个RGB-D语义分割数据集和五个RGB-D显著目标检测数据集上的优越性能。例如,DFormer-L在NYU Depthv2数据集上达到了57.2%的mIoU,而参数和计算量分别仅为39.0M和65.7G Flops。相比之下,最近的最佳方法CMX(MiT-B2)使用66.6M参数和67.6G Flops仅能达到54.4%的mIoU。

总结

论文作者进行了消融研究,分析了DFormer各组件的有效性。实验结果表明,RGB-D预训练对于提升分割准确性至关重要,且DFormer的解码器只需使用RGB特征即可高效融合两种模态的信息,进一步证明了所提框架和构建块更适合RGB-D分割任务。

请添加图片描述

请添加图片描述

参考


  1. VCIP-RGBD/DFormer: [CVPR 2025]DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation && [ICLR 2024] DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation ↩︎

  2. VCIP-RGBD/RGBD-Pretrain: RGBD Pretraining code used in DFormer [ICLR 2024] ↩︎

http://www.xdnf.cn/news/875899.html

相关文章:

  • 电路图识图基础知识-直接启动/接触器启动(十四)
  • 分布式训练下的多进程环境
  • [Java 基础]枚举
  • NLP中的input_ids是什么?
  • Pycharm 配置解释器
  • mybatis实现插入postgresql的json类型数据
  • DA14531_beacon_大小信标设备开发
  • 如何安装并使用RustDesk
  • Java Fork/Join框架:三大核心组件深度解析
  • 功率估计和功率降低方法指南(1~2)
  • 2025年6月4日收获
  • 如何进行股票回测?
  • 第三方检测:软件适配测试报告
  • SAFe/LeSS/DAD等框架的核心适用场景如何选择?
  • Paraformer分角色语音识别-中文-通用 FunASR
  • SEO长尾关键词布局优化法
  • 二维码生成器
  • 宝马集团推进数字化转型:强化生产物流与财务流程,全面引入SAP现代架构
  • expect程序交互学习
  • 电子电路:共集电极放大器原理与作用解析
  • GO语言----基础类型取别名
  • PhpStorm设置中文
  • 数据库MySQL基础(3)
  • OpenAI API 流式传输
  • NX963NX970美光固态闪存NX978NX983
  • 基于单片机的FFT的频谱分析仪设计
  • Linux 系统 rsyslog 配置
  • 1.1随机试验与随机事件
  • Java 2D 图形变换方法
  • Linux 云服务器部署 Flask 项目(含后台运行与 systemd 开机自启)