当前位置: 首页 > news >正文

[2025CVPR-图象超分辨方向]DORNet:面向退化的正则化网络,用于盲深度超分辨率

1. ​问题背景与挑战

盲深度超分辨率(Blind Depth Super-Resolution, DSR)的目标是从低分辨率(LR)深度图中恢复高分辨率(HR)深度图,但现有方法在真实场景下面临显著挑战:

  • 已知降级假设的局限性​:当前RGB引导的DSR方法(如双三次下采样)在合成数据集上表现良好,但真实世界深度数据常受传感器限制和复杂成像环境(如低反射表面、光照变化)影响,导致非传统且未知的降级(例如结构失真和模糊)。这种降级会破坏深度图与RGB图的结构一致性,显著降低模型性能。
  • 真实与合成数据的差异​:真实世界LR深度(如ToF相机捕获)相比合成LR深度(如双三次下采样)表现出更严重的结构失真和分布差异(如图2所示),使恢复任务更复杂。传统方法无法适应这种未知降级,需新方法建模隐式降级表示。

 

现有方法的不足​:如图1所示,传统方法直接融合RGB与对齐的LR深度,忽略了降级建模;而DORNet专注于学习LR深度的降级表示,以提供针对性恢复指导。 

 

2. ​DORNet框架概述

DORNet是一个新颖的盲DSR框架,核心思想是通过隐式降级表示自适应处理真实场景的未知降级。其整体架构包括:

  • 输入与输出​:给定LR深度图 Dlr​∈Rh×w×1 和RGB图像 I∈Rsh×sw×3(s 为上采样因子),输出恢复的HR深度图 Dhr​∈Rsh×sw×1。
  • 关键模块​:
    • 自我监督降级学习策略(Self-Supervised Degradation Learning)​​:建模LR深度的降级表示,无需降级标签。
    • 降级导向融合方案(Degradation-Oriented Fusion Scheme)​​:基于学到的降级先验,选择性融合RGB与深度特征。
  • 轻量版设计​:DORNet-T通过减少卷积通道数(降至原始3/8)实现高效推理,同时保持相同架构。

 

3. ​核心技术细节

a. ​自我监督降级学习策略
  • 降级表示生成​:输入上采样LR深度 Dup​,通过残差块 frb​ 和降级编码器 Ed​ 生成降级表示 D~ 和 D:

 

路由选择机制​:受Mixture-of-Experts启发,设计路由编码器 Er​ 动态分配降级表示至多尺度降级核生成器: 

如图4所示,学到的降级表示 D~ 能精准识别退化区域(如梯度直方图对比)。
 

b. ​降级导向融合方案
  • DOFT模块(Degradation-Oriented Feature Transformation)​​:核心组件,递归执行多次(默认5次),选择性传播RGB特征至深度特征:
    • RGB特征对齐​:使用 D~ 生成偏移 Δp 和调制标量 Δm,结合 D 生成权重 w,通过可变形卷积(DCN)对齐RGB特征 Frt−1​:

 

选择性传播​:编码 D~ 为亲和系数 σ,融合 Frd​ 与深度特征 Fdt−1​:Fdt​=fc​([Fdt−1​,σ⊗fc​(Frd​)+Frd​]). 

 

4. ​实验结果与性能

a. ​数据集与设置
  • 数据集​:
    • 真实世界​:RGB-D-D(2,215训练/405测试)、TOFDSR(10K训练/560测试,使用ToF相机数据)。
    • 合成数据​:NYU-v2(1,000训练/449测试,双三次下采样生成LR)。
  • 评估指标​:RMSE(均方根误差,厘米单位),参数数量(Params)和推理时间。
b. ​主要结果
  • 真实世界性能(表1)​​:DORNet在RGB-D-D和TOFDSR上均优于现有方法(如SFG、SGNet)。例如:
    • RGB-D-D:RMSE 3.42 cm(vs. SFG的3.88 cm),参数仅3.05M。
    • TOFDSR:RMSE 4.33 cm(与SGNet持平),参数更低。
  • 噪声鲁棒性(表2)​​:在添加高斯噪声和模糊后,DORNet保持最优(如RGB-D-D噪声环境RMSE 4.08 cm,优于SFG的4.24 cm)。
  • 合成数据性能(表3)​​:在NYU-v2上,DORNet-T(轻量版)在x4上RMSE 1.33 cm,优于DCTNet(1.59 cm)和FDSR(1.61 cm)。
  • 效率权衡(图6)​​:DORNet-T在参数(0.46M)、推理时间(35%低于DCTNet)和FPS间取得平衡。

 

可视化结果​:如图8-9所示,DORNet恢复的HR深度结构更精确(如手袋边缘),错误图亮度更低。 

 

DCTNet SFG SGNet DORNet-T DORNet
Figure 8. Visual results(left) and error maps(right) on the real-world RGB-D-D dataset(w/o Noise). 

 

c. ​消融研究
  • 降级学习与正则化(图11)​​:移除降级学习(DL)和正则化(DR)时,RMSE上升0.82 cm;联合使用效果最佳。
  • DOFT迭代次数(图12a)​​:5次迭代达到性能-复杂度平衡。
  • 损失函数(图12b)​​:Ldeg​ 和 Lcont​ 联合降低RMSE 0.27 cm(噪声环境)。
  • 生成器数量(图12c)​​:4生成器选3(g4k3)最优。

 


5. ​主要贡献与结论

  • 贡献​:
    1. 新颖框架​:提出DORNet,首次通过隐式降级表示处理真实场景未知降级。
    2. 自我监督降级学习​:基于路由选择的降级正则化,无监督建模降级表示。
    3. 降级导向融合​:DOFT模块利用降级先验选择性传播RGB内容。
    4. 实验验证​:在真实和合成数据集上实现SOTA,模型轻量高效。
  • 结论​:DORNet通过学习LR深度的降级表示,为RGB-D融合提供针对性指导,显著提升盲DSR在真实场景的鲁棒性和精度。未来可扩展至其他多模态恢复任务。

论文地址: https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_DORNet_A_Degradation_Oriented_and_Regularized_Network_for_Blind_Depth_CVPR_2025_paper.pdf

http://www.xdnf.cn/news/1199881.html

相关文章:

  • 标签驱动的可信金融大模型训练全流程-Agentar-Fin-R1工程思路浅尝
  • Unity Catalog与Apache Iceberg如何重塑Data+AI时代的企业数据架构
  • JavaEE初阶第十二期:解锁多线程,从 “单车道” 到 “高速公路” 的编程升级(十)
  • LeetCode 239:滑动窗口最大值
  • 模拟实现python的sklearn库中的Bunch类以及 load_iris 功能
  • RocksDB 高效采样算法:水塘抽样和随机寻址
  • WAIC 2025 热点解读:如何构建 AI 时代的“视频神经中枢”?
  • [N1盒子] 斐讯盒子N1 T1通用刷机包(可救砖)
  • SpringBoot 整合 Langchain4j AIService 深度使用详解
  • Valgrind Helgrind 工具全解:线程同步的守门人
  • 编程语言Java——核心技术篇(五)IO流:数据洪流中的航道设计
  • JavaWeb(苍穹外卖)--学习笔记13(微信小程序开发,缓存菜品,Spring Cache)
  • Java中get()与set()方法深度解析:从封装原理到实战应用
  • 8. 状态模式
  • 零基础 “入坑” Java--- 十五、字符串String
  • 一场关于电商零售增长破局的深圳探索
  • 金融科技中的跨境支付、Open API、数字产品服务开发、变革管理
  • 【Ollama】大模型本地部署与 Java 项目调用指南
  • 字符串是数据结构还是数据类型?
  • 基于Prometheus+Grafana的分布式爬虫监控体系:构建企业级可观测性平台
  • Git Commit 生成与合入 Patch 指南
  • java--WebSocket简单介绍
  • 多模态视觉语言模型FILA-细粒度分辨率融合策略
  • [10月考试] B
  • Flutter 生命周期介绍
  • 基于Java的KTV点歌系统的设计与实现
  • 电商项目_核心业务_分布式ID服务
  • [STM32][HAL]stm32wbxx 超声波测距模块实现(HY-SRF05)
  • selenium完整版一览
  • 三、搭建springCloudAlibaba2021.1版本分布式微服务-springcloud loadbalancer负载均衡