【视觉任务】深度估计(Depth Estimation)介绍(2025年更新)
文章目录
- 1. 任务定义与意义
- 2. 按输入类型的分类
- 2.1 单目深度估计(Monocular Depth Estimation)
- 2.2 双目与多视图深度估计(Stereo / Multi-view)
- 2.3 深度相机输入(RGB-D)
- 2.4 主动与被动方法
- 3. 核心方法概述
- 3.1 传统几何与优化方法
- 3.2 深度学习方法
- 3.2.1 监督学习
- 3.2.2 弱监督与自监督学习
- 3.2.3 端到端视差估计网络
- 3.2.4 变换器与对比学习
- 4. 数据集与评测指标
- 5. 应用场景
- 6. 挑战与未来方向
1. 任务定义与意义
深度估计(Depth Estimation)是指从二维图像或多视图输入中预测场景中每个像素到摄像机的距离,输出通常为深度图。该任务是三维重建、场景理解、自动驾驶与增强现实等下游应用的关键前置步骤。
2. 按输入类型的分类
2.1 单目深度估计(Monocular Depth Estimation)
仅以单张 RGB 图像为输入,预测密集深度。由于单目缺乏视差信息,该任务本质上是一个高度病态的逆问题,常依赖深度学习从海量数据中学习统计先验。
2.2 双目与多视图深度估计(Stereo / Multi-view)
利用两个或多个摄像机视角,通过视差(disparity)计算获得深度。传统方法依赖特征匹配与三角测量,而现代方法多采用端到端网络提升匹配精度与鲁棒性。
2.3 深度相机输入(RGB-D)
直接使用内置结构光或飞行时间(ToF)传感器采集的稠密/半稠密深度,与 RGB 图融合,可显著简化深度推断任务,常用于室内场景理解。
2.4 主动与被动方法
被动方法(如单目、双目)无需主动光源;主动方法(如 ToF、LiDAR)发射光信号并测量回波,获得高精度深度,但成本与功耗更高。
3. 核心方法概述
3.1 传统几何与优化方法
- 多视几何:基于特征点匹配与三角化重建深度,经典算法包括 SIFT 匹配与光度一致性优化。
- 形状从焦:利用不同焦距图像中的模糊程度估计深度,同样属于几何推导范式。
3.2 深度学习方法
3.2.1 监督学习
采用带有真实深度标签(如 LiDAR 或结构光相机)的数据进行监督训练,常见模型有 U-Net、ResNet 等编码-解码结构,通过像素级回归最小化 L1/L2 损失。
3.2.2 弱监督与自监督学习
- 弱监督:利用视差一致性、运动光度一致性等几何约束代替或补充真实深度标注,降低标注成本。
- 自监督:例如基于单/双目图像的重建误差,自行生成伪深度标签进行迭代优化,无需深度传感器。
3.2.3 端到端视差估计网络
在双目或多视场景下,端到端网络(如 GC-Net、PSMNet)将特征提取、代价体构建与视差回归集成,提高了匹配精度与计算效率。
3.2.4 变换器与对比学习
最新工作将 Transformer 架构引入深度估计,通过全局注意力机制捕获长距离依赖;对比学习则用于提炼更鲁棒的特征表征。
4. 数据集与评测指标
- 常用数据集:KITTI(户外自动驾驶)、NYUv2(室内)、TUM RGB-D、Scene Flow;最新数据集还包含大规模运动场景与热成像数据。
- 评测指标:常用 RMSE(均方根误差)、Abs Rel(绝对相对误差)、δ<1.25(阈值准确率)等,全面衡量精度与鲁棒性。
5. 应用场景
- 自动驾驶:实时深度图可辅助障碍物检测与路径规划。
- 增强现实/虚拟现实:深度信息支持虚拟物体与真实场景的无缝融合。
- 机器人导航与操作:基于深度的三维地图构建与定位,为自主机器人提供感知能力。
- 场景重建与测量:利用深度图进行三维建模与面积/体积测量。
6. 挑战与未来方向
- 域泛化:模型在不同场景、不同光照与传感器条件下的适应性仍有待提升。
- 稠密与实时:如何在保证高分辨率输出和实时推理之间取得平衡,是系统部署的关键难题。
- 弱光与恶劣环境:雨、雾、低光照下深度估计性能大幅下降,需融合多源信息(热成像、雷达等)提高鲁棒性。
- 无监督与少样本学习:减少对大规模标注数据的依赖,实现更灵活的模型训练与快速部署。
- 统一多模态架构:兼容单目、双目、RGB-D、点云等多种输入形式的通用深度估计框架,将是未来研究热点。
通过不断创新算法结构、融合深度学习与几何先验,并结合多模态感知,深度估计领域正朝着更高精度、更强鲁棒性和更广泛应用的方向快速发展。