[2025CVPR-图象超分辨方向]DORNet:面向退化的正则化网络,用于盲深度超分辨率
1. 问题背景与挑战
盲深度超分辨率(Blind Depth Super-Resolution, DSR)的目标是从低分辨率(LR)深度图中恢复高分辨率(HR)深度图,但现有方法在真实场景下面临显著挑战:
- 已知降级假设的局限性:当前RGB引导的DSR方法(如双三次下采样)在合成数据集上表现良好,但真实世界深度数据常受传感器限制和复杂成像环境(如低反射表面、光照变化)影响,导致非传统且未知的降级(例如结构失真和模糊)。这种降级会破坏深度图与RGB图的结构一致性,显著降低模型性能。
- 真实与合成数据的差异:真实世界LR深度(如ToF相机捕获)相比合成LR深度(如双三次下采样)表现出更严重的结构失真和分布差异(如图2所示),使恢复任务更复杂。传统方法无法适应这种未知降级,需新方法建模隐式降级表示。
现有方法的不足:如图1所示,传统方法直接融合RGB与对齐的LR深度,忽略了降级建模;而DORNet专注于学习LR深度的降级表示,以提供针对性恢复指导。
2. DORNet框架概述
DORNet是一个新颖的盲DSR框架,核心思想是通过隐式降级表示自适应处理真实场景的未知降级。其整体架构包括:
- 输入与输出:给定LR深度图 Dlr∈Rh×w×1 和RGB图像 I∈Rsh×sw×3(s 为上采样因子),输出恢复的HR深度图 Dhr∈Rsh×sw×1。
- 关键模块:
- 自我监督降级学习策略(Self-Supervised Degradation Learning):建模LR深度的降级表示,无需降级标签。
- 降级导向融合方案(Degradation-Oriented Fusion Scheme):基于学到的降级先验,选择性融合RGB与深度特征。
- 轻量版设计:DORNet-T通过减少卷积通道数(降至原始3/8)实现高效推理,同时保持相同架构。
3. 核心技术细节
a. 自我监督降级学习策略
- 降级表示生成:输入上采样LR深度 Dup,通过残差块 frb 和降级编码器 Ed 生成降级表示 D~ 和 D:
路由选择机制:受Mixture-of-Experts启发,设计路由编码器 Er 动态分配降级表示至多尺度降级核生成器:
如图4所示,学到的降级表示 D~ 能精准识别退化区域(如梯度直方图对比)。
b. 降级导向融合方案
- DOFT模块(Degradation-Oriented Feature Transformation):核心组件,递归执行多次(默认5次),选择性传播RGB特征至深度特征:
- RGB特征对齐:使用 D~ 生成偏移 Δp 和调制标量 Δm,结合 D 生成权重 w,通过可变形卷积(DCN)对齐RGB特征 Frt−1:
选择性传播:编码 D~ 为亲和系数 σ,融合 Frd 与深度特征 Fdt−1:Fdt=fc([Fdt−1,σ⊗fc(Frd)+Frd]).
4. 实验结果与性能
a. 数据集与设置
- 数据集:
- 真实世界:RGB-D-D(2,215训练/405测试)、TOFDSR(10K训练/560测试,使用ToF相机数据)。
- 合成数据:NYU-v2(1,000训练/449测试,双三次下采样生成LR)。
- 评估指标:RMSE(均方根误差,厘米单位),参数数量(Params)和推理时间。
b. 主要结果
- 真实世界性能(表1):DORNet在RGB-D-D和TOFDSR上均优于现有方法(如SFG、SGNet)。例如:
- RGB-D-D:RMSE 3.42 cm(vs. SFG的3.88 cm),参数仅3.05M。
- TOFDSR:RMSE 4.33 cm(与SGNet持平),参数更低。
- 噪声鲁棒性(表2):在添加高斯噪声和模糊后,DORNet保持最优(如RGB-D-D噪声环境RMSE 4.08 cm,优于SFG的4.24 cm)。
- 合成数据性能(表3):在NYU-v2上,DORNet-T(轻量版)在x4上RMSE 1.33 cm,优于DCTNet(1.59 cm)和FDSR(1.61 cm)。
- 效率权衡(图6):DORNet-T在参数(0.46M)、推理时间(35%低于DCTNet)和FPS间取得平衡。
可视化结果:如图8-9所示,DORNet恢复的HR深度结构更精确(如手袋边缘),错误图亮度更低。
DCTNet SFG SGNet DORNet-T DORNet
Figure 8. Visual results(left) and error maps(right) on the real-world RGB-D-D dataset(w/o Noise).
c. 消融研究
- 降级学习与正则化(图11):移除降级学习(DL)和正则化(DR)时,RMSE上升0.82 cm;联合使用效果最佳。
- DOFT迭代次数(图12a):5次迭代达到性能-复杂度平衡。
- 损失函数(图12b):Ldeg 和 Lcont 联合降低RMSE 0.27 cm(噪声环境)。
- 生成器数量(图12c):4生成器选3(g4k3)最优。
5. 主要贡献与结论
- 贡献:
- 新颖框架:提出DORNet,首次通过隐式降级表示处理真实场景未知降级。
- 自我监督降级学习:基于路由选择的降级正则化,无监督建模降级表示。
- 降级导向融合:DOFT模块利用降级先验选择性传播RGB内容。
- 实验验证:在真实和合成数据集上实现SOTA,模型轻量高效。
- 结论:DORNet通过学习LR深度的降级表示,为RGB-D融合提供针对性指导,显著提升盲DSR在真实场景的鲁棒性和精度。未来可扩展至其他多模态恢复任务。
论文地址: https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_DORNet_A_Degradation_Oriented_and_Regularized_Network_for_Blind_Depth_CVPR_2025_paper.pdf