【深度估计 Depth Estimation】数据集介绍
文章目录
- 总览
- 1. KITTI Depth Completion
- 1.1. 来源
- 1.2. 采集场景
- 1.3. 数据集内容
- 1.4. 标注内容
- 1.5. 任务目标
- 1.6. 样本量
- 1.7. 下载链接
- 2. KITTI Stereo Evaluation 2015
- 2.1. 来源
- 2.2. 采集场景
- 2.3. 数据集内容
- 2.4. 标注内容
- 2.5. 任务目标
- 2.6. 样本量
- 2.7. 下载链接
- 3. Virtual KITTI2
- 3.1. 来源
- 3.2. 采集场景
- 3.3. 数据集内容
- 3.4. 标注内容
- 3.5. 任务目标
- 3.6. 样本量
- 3.7. 下载链接
- 4. NYU Depth V2
- 4.1. 来源
- 4.2. 采集场景
- 4.3. 数据集内容
- 4.4. 标注内容
- 4.5. 任务目标
- 4.6. 样本量
- 4.7. 下载链接
- 5. Middlebury Stereo 2021
- 5.1. 来源
- 5.2. 采集场景
- 5.3. 数据集内容
- 5.4. 标注内容
- 5.5. 任务目标
- 5.6. 样本量
- 5.7. 下载链接
总览
数据集 | 发布年份 | 任务 | 数据模态 | 样本/场景数量 | 划分 (Train / Val / Test) | 说明 |
---|---|---|---|---|---|---|
KITTI Depth Completion | 2017 | 深度补全、单目深度预测 | RGB 图像 + 稀疏 LiDAR 深度 | 93 000 训练;1 000 验证;1 000 测试 | 93 000/1 000/1 000 | 将稀疏 LiDAR 投影生成半密集深度图,用于训练深度补全模型 |
KITTI Stereo Evaluation 2015 | 2015 | 立体匹配、光流、场景流 | 校正双目图像 | 200 训练场景;200 测试场景 | 200/–/200 | 提供像素级视差和光流指标,以坏像素比评价算法性能 |
Virtual KITTI 2 | 2020 | 跟踪、语义/实例分割、深度、光流 | 合成 RGB、深度、分割、光流、场景流 | 21 260 对双目立体图像 | 无固定划分 | 基于真实 KITTI 场景的合成克隆,支持多种天气和摄像机变体 |
NYU-Depth V2 | 2012 | 室内场景分割、深度估计 | RGB + 深度(Kinect) | 1 449 标注对;407 024 未标注帧;464 场景 | 795/654/– | 使用 Kinect 捕获的室内视频序列,标注包含密集语义与实例标签 |
Middlebury 2021 | 2021 | 立体匹配 | 高分辨率立体图像 | 11 场景 × 多视图 × 多光照/曝光(约20–22 对) | 无固定划分 | 实验室环境拍摄,提供结构光获取的精确真值视差 |
1. KITTI Depth Completion
1.1. 来源
由 Karlsruhe Institute of Technology 与 Toyota Technological Institute 发布于 KITTI Vision Benchmark Suite∶Depth Completion 基准
1.2. 采集场景
使用配备双目摄像头与 Velodyne HDL-64E 激光雷达的 Annieway 自动驾驶平台,在德国卡尔斯鲁厄市区街景中采集
1.3. 数据集内容
- 稀疏深度图:原始 LiDAR 点云投影到相机平面,约 5% 像素有深度值;
- RGB 图像:对应同步采集的高分辨率彩色图像。
1.4. 标注内容
- 半密集深度:官方提供的注释深度图(annotated depth maps),对应于 LiDAR 与多张相机视图融合后生成的“半密集” ground truth。
1.5. 任务目标
- 深度补全(Depth Completion):从稀疏深度与(可选)RGB 引导图生成密集深度图;
- 单图深度预测(Depth Prediction):仅利用单张 RGB 图像预测深度。
1.6. 样本量
- 训练集:≈93 000 张;
- 验证集:1 000 张;
- 测试集:1 000 张。
1.7. 下载链接
- 官方基准主页:https://www.cvlibs.net/datasets/kitti/eval_depth.php?benchmark=depth_completion
2. KITTI Stereo Evaluation 2015
2.1. 来源
同属 KITTI Vision Benchmark Suite 下的 Stereo / Flow / Scene Flow 2015 基准,由 Andreas Geiger 等人维护
2.2. 采集场景
与 Depth Completion 同平台采集,但专门选择含动态行人、车辆的街区路段,用于评测运动物体场景流
2.3. 数据集内容
- 图像对:200 个训练场景与 200 个测试场景,每场景 4 幅 PNG 无损图(左/右两帧×两时刻);
- 多帧扩展:可选 20 帧/场景的多视图扩展。
2.4. 标注内容
- 视差图:D1/D2 两时刻视差;
- 光流(Fl) 与 场景流(SF);
- 标定文件:内外参 calib.txt。
2.5. 任务目标
- 双目视差估计;
- 光流;
- 场景流联合评测(要求视差与光流精度同时满足阈值)。
2.6. 样本量
- 训练集:200 场景;
- 测试集:200 场景。
2.7. 下载链接
- 官方基准主页:https://www.cvlibs.net/datasets/kitti/eval_scene_flow.php?benchmark=stereo
3. Virtual KITTI2
3.1. 来源
由 Naver Labs Europe 提供的合成数据集 Virtual KITTI 2,基于 Unity 引擎重建 KITTI 跟踪序列
3.2. 采集场景
克隆 KITTI Tracking 基准的 5 条序列(Scene01、Scene02、Scene06、Scene18、Scene20),并引入不同天气(雾、雨)与相机旋转(±15°)变体
3.3. 数据集内容
- RGB 图像、深度图;
- 语义分割、实例分割;
- 光流、场景流;
- 相机参数 与 车辆位姿。
3.4. 标注内容
- 自动生成:所有标注通过模拟环境直接导出,精度高且无人工误差。
3.5. 任务目标
支持多种计算机视觉任务,如深度估计、目标检测、多目标跟踪、光流、场景流等
3.6. 样本量
- 基础序列:21 260 帧(与 VKITTI1 相当);
- 含变体:总帧数达 ∼100 000 级。
3.7. 下载链接
- 官方主页:https://europe.naverlabs.com/research/computer-vision/proxy-virtual-worlds-vkitti-2/
4. NYU Depth V2
4.1. 来源
由 NYU(Nathan Silberman 等)基于 Microsoft Kinect 发布的室内 RGB-D 数据集
4.2. 采集场景
同步采集自 3 个城市的 464 个不同室内场景(公寓、办公室、走廊等),20–30 FPS 视频序列。
4.3. 数据集内容
- 密集标注对:1 449 对对齐 RGB(640×480) 与深度图;
- 原始视频帧:407 024 未标注帧;
- 加速度计数据、时间戳。
4.4. 标注内容
- 类别/实例标签:每个物体标注类别及实例编号(cup1、cup2…);
- 填补深度图:用色彩化方法修复丢失深度值。
4.5. 任务目标
- 室内深度估计;
- 语义与实例分割;
- 场景理解与支持关系推理。
4.6. 样本量
- 标注对:1449 张;
- 未标注帧:407024 帧;
- 场景数:464 个。
4.7. 下载链接
- 官方主页:https://cs.nyu.edu/~fergus/datasets/nyu_depth_v2.html
5. Middlebury Stereo 2021
5.1. 来源
由 Middlebury College Computer Vision Lab 发布的高精度立体匹配基准(Scenes2021)
5.2. 采集场景
11 个场景(Artroom、Bandsaw、Chess、Curule、Octogons、Pendulum、Skates、Skiboots、Traproom、Ladder、Podium),每场景 1–3 个视角;多种环境光照与曝光(Flash、Lighting、Torch)
5.3. 数据集内容
- 左右视图:多曝光下的 PNG 图像;
- 20% 分辨率预览及完整版多兆像素图;
- PFM 格式视差图 disp0.pfm/disp1.pfm。
5.4. 标注内容
- 亚像素级视差:由结构化光系统获取的高精度 ground truth;
- calib.txt:相机内外参标定。
5.5. 任务目标
立体匹配精度评测,重点考察复杂几何与光照条件下算法鲁棒性。
5.6. 样本量
- 场景数:11;
- 视角数:1–3;
- 曝光/光照条件:多种。
5.7. 下载链接
- 官方数据页:https://vision.middlebury.edu/stereo/data/scenes2021/