当前位置：首页 > news >正文

【视觉任务】深度估计（Depth Estimation）介绍（2025年更新）

news 2025/7/3 20:33:58

文章目录

- 1. 任务定义与意义
- 2. 按输入类型的分类
- - 2.1 单目深度估计（Monocular Depth Estimation）
  - 2.2 双目与多视图深度估计（Stereo / Multi-view）
  - 2.3 深度相机输入（RGB-D）
  - 2.4 主动与被动方法
- 3. 核心方法概述
- - 3.1 传统几何与优化方法
  - 3.2 深度学习方法
  - - 3.2.1 监督学习
    - 3.2.2 弱监督与自监督学习
    - 3.2.3 端到端视差估计网络
    - 3.2.4 变换器与对比学习
- 4. 数据集与评测指标
- 5. 应用场景
- 6. 挑战与未来方向

1. 任务定义与意义

深度估计（Depth Estimation）是指从二维图像或多视图输入中预测场景中每个像素到摄像机的距离，输出通常为深度图。该任务是三维重建、场景理解、自动驾驶与增强现实等下游应用的关键前置步骤。

2. 按输入类型的分类

2.1 单目深度估计（Monocular Depth Estimation）

仅以单张 RGB 图像为输入，预测密集深度。由于单目缺乏视差信息，该任务本质上是一个高度病态的逆问题，常依赖深度学习从海量数据中学习统计先验。

2.2 双目与多视图深度估计（Stereo / Multi-view）

利用两个或多个摄像机视角，通过视差（disparity）计算获得深度。传统方法依赖特征匹配与三角测量，而现代方法多采用端到端网络提升匹配精度与鲁棒性。

2.3 深度相机输入（RGB-D）

直接使用内置结构光或飞行时间（ToF）传感器采集的稠密/半稠密深度，与 RGB 图融合，可显著简化深度推断任务，常用于室内场景理解。

2.4 主动与被动方法

被动方法（如单目、双目）无需主动光源；主动方法（如 ToF、LiDAR）发射光信号并测量回波，获得高精度深度，但成本与功耗更高。

3. 核心方法概述

3.1 传统几何与优化方法

多视几何：基于特征点匹配与三角化重建深度，经典算法包括 SIFT 匹配与光度一致性优化。
形状从焦：利用不同焦距图像中的模糊程度估计深度，同样属于几何推导范式。

3.2 深度学习方法

3.2.1 监督学习

采用带有真实深度标签（如 LiDAR 或结构光相机）的数据进行监督训练，常见模型有 U-Net、ResNet 等编码-解码结构，通过像素级回归最小化 L1/L2 损失。

3.2.2 弱监督与自监督学习

弱监督：利用视差一致性、运动光度一致性等几何约束代替或补充真实深度标注，降低标注成本。
自监督：例如基于单/双目图像的重建误差，自行生成伪深度标签进行迭代优化，无需深度传感器。

3.2.3 端到端视差估计网络

在双目或多视场景下，端到端网络（如 GC-Net、PSMNet）将特征提取、代价体构建与视差回归集成，提高了匹配精度与计算效率。

3.2.4 变换器与对比学习

最新工作将 Transformer 架构引入深度估计，通过全局注意力机制捕获长距离依赖；对比学习则用于提炼更鲁棒的特征表征。

4. 数据集与评测指标

常用数据集：KITTI（户外自动驾驶）、NYUv2（室内）、TUM RGB-D、Scene Flow；最新数据集还包含大规模运动场景与热成像数据。
评测指标：常用 RMSE（均方根误差）、Abs Rel（绝对相对误差）、δ<1.25（阈值准确率）等，全面衡量精度与鲁棒性。

5. 应用场景

自动驾驶：实时深度图可辅助障碍物检测与路径规划。
增强现实/虚拟现实：深度信息支持虚拟物体与真实场景的无缝融合。
机器人导航与操作：基于深度的三维地图构建与定位，为自主机器人提供感知能力。
场景重建与测量：利用深度图进行三维建模与面积/体积测量。

6. 挑战与未来方向

域泛化：模型在不同场景、不同光照与传感器条件下的适应性仍有待提升。
稠密与实时：如何在保证高分辨率输出和实时推理之间取得平衡，是系统部署的关键难题。
弱光与恶劣环境：雨、雾、低光照下深度估计性能大幅下降，需融合多源信息（热成像、雷达等）提高鲁棒性。
无监督与少样本学习：减少对大规模标注数据的依赖，实现更灵活的模型训练与快速部署。
统一多模态架构：兼容单目、双目、RGB-D、点云等多种输入形式的通用深度估计框架，将是未来研究热点。

通过不断创新算法结构、融合深度学习与几何先验，并结合多模态感知，深度估计领域正朝着更高精度、更强鲁棒性和更广泛应用的方向快速发展。

http://www.xdnf.cn/news/491869.html

相关文章：

【AT32】 AT32 移植 Freemodbus 主站

亲缘半相合供者

第二十次博客打卡

10G 集成 4 口网口连接器的核心优势

FC7300 CAN MCAL 配置引导

SVMSPro平台如何获取HLS视频流

差分探头为什么要选择使用屏蔽双绞线

DeepSeek基础：PPO、DPO、GRPO概念详解

Cursor 中的AI模型到底怎么选？

城市综合管廊监测与维护一体化解决方案

MinerU本地化部署可视化界面

QT6 源（104）篇一：阅读与注释QAction，其是窗体菜单栏与工具栏里的菜单项，先给出属性测试

基于MNIST数据集的手写数字识别（CNN）

产品经理如何做好需求管理

论文浅尝 | HOLMES：面向大语言模型多跳问答的超关系知识图谱方法（ACL2024）

用GPU训练模型的那些事：PyTorch 多卡训练实战

蓝牙AVCTP协议概述

【软考霍夫曼编码的文档压缩比】

【数据结构】二分查找-LeftRightmost

英语六级备考-阅读篇

25年2月通信基础知识补充2：延迟对齐调制、常见卫星移动速度

python中 raise notimplementederror有什么功能，如何使用

类模板的简单实例

arxiv等开源外文书数据的获取方式

Spring2：应用事务+连接池形成的工具类

FC7300 Trigger MCAL配置引导

Android应用内存分析与优化 - 工具篇之Booster

ThinkStation图形工作站进入BIOS方法

读论文alexnet:ImageNet Classification with Deep Convolutional Neural Networks

C++循环效率比较与优化建议