当前位置: 首页 > ops >正文

CVPR论文速递 | DL3DV-10K:10K+真实场景,打破三维视觉数据荒!


1.导读

图片

1.1 论文基本信息

  • 论文标题DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision 

  • 作者Lu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianyi Zhang, Bedrich Benes, Aniket Bera

  • 作者单位普渡大学计算机科学系、Adobe公司、罗格斯大学、谷歌公司、华中科技大学、Wormpex AI研究院

  • 发表会议IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2024)

  • 论文链接https://arxiv.org/pdf/2312.16256v2

2.论文概述

2.1 核心问题与背景

随着以神经辐射场(NeRF)为代表的深度学习三维视觉技术的快速发展,新颖视图合成(NVS)等应用取得了显著进展。然而,现有用于深度学习三维视觉的场景级数据集存在严重不足。这些数据集要么局限于合成环境,要么只包含有限的真实世界场景。这种局限性不仅阻碍了对现有方法的全面基准测试,也限制了深度学习三维分析的进一步探索,尤其是无法对真实世界中非朗伯表面等复杂场景进行充分评估。此外,现有方法大多为每个场景单独优化NeRF,需要大量的校准视图和计算时间,而缺乏大规模数据集来学习可泛化的场景先验知识。

2.2 主要贡献

为了填补这一关键空白,本文提出了DL3DV-10K,一个大规模、高质量、多样化的真实世界多视图(MV)场景数据集。该数据集的主要贡献可以概括为以下三点:

  1. 大规模、高质量的真实世界数据集:介绍了DL3DV-10K,该数据集包含来自65种兴趣点(POI)位置的10,510个视频,共计5120万帧4K分辨率图像。每个场景都进行了精细的复杂性标注,包括室内/室外环境、反射和透明度级别、光照条件以及纹理频率等。

  2. 全面的NVS基准测试:从DL3DV-10K中采样了140个场景,构建了DL3DV-140基准测试集。该基准集提供了丰富的真实世界挑战,能够公平评估最先进的NVS方法,并分析它们在不同复杂性场景下的优劣。

  3. 支持可泛化三维表示学习:通过一项初步研究,展示了在DL3DV-10K上进行预训练能够增强可泛化NeRF模型的性能,使其获得通用的场景先验知识和共享知识。这验证了多样性和规模对于学习通用场景先验的重要性,为创建三维表示的基础模型铺平了道路。

2.3 关键技术与创新点

本文的核心创新在于提出了一个专门为深度学习三维视觉设计的大规模、高多样性数据集,并为其提供了一套完整的处理和标注流程。具体创新点如下:

  1. 数据采集:采用高效的数据采集管道,利用广泛可用的消费级手机和无人机进行视频录制,并制定了详细的采集指南以确保视频质量。

  2. 精细化标注:除了传统的场景类别,还对反射、透明度、光照和纹理频率等复杂性属性进行了量化标注。这使得研究人员可以更深入地分析模型在处理特定挑战时的表现。

  3. 多维度基准评估:不仅提供了PSNR、SSIM和LPIPS等定量指标,还通过详细的分析揭示了不同NVS方法在不同复杂性场景下的表现,包括在户外无界场景、高频纹理和强反射透明材质等情况下的优劣。

3.研究背景及相关工作

3.1 新颖视图合成(NVS)方法的发展

NeRF及其变体

自NeRF提出以来,通过将5D坐标映射到颜色和密度,彻底改变了NVS领域。随后的工作,如Instant-NGP,通过哈希表和多分辨率网格加速了NeRF的渲染。Mip-NeRF 360则解决了混叠问题,并将应用扩展到无界场景。3D高斯飞溅(3DGS)通过高斯函数实现了高质量实时渲染。然而,这些最先进的方法通常需要为每个场景独立优化,并且依赖于密集视图和大量的计算资源。

基于学习的泛化模型

为了解决上述问题,PixelNeRF和IBRNet等基于学习的模型通过在多个场景上进行训练来学习通用的场景先验,从而实现对稀疏视图的合成。然而,现有数据集的规模和多样性不足,限制了这些模型获得真正的通用先验能力。

图片

3.2 现有NVS数据集的局限性

合成数据集

如Blender数据集和ShapeNet,提供了丰富的3D几何模型,但缺乏真实世界的光照、噪声和非朗伯效应,这降低了模型在实际应用中的鲁棒性。

真实世界数据集

尽管像Tanks and Temples、LLFF和Matterport3D等真实世界数据集提供了更多样性,但它们的规模和范围仍然有限。例如,Tanks and Temples场景数量有限,且无法捕捉复杂的材质属性。ScanNet虽然场景较多,但其运动模糊和狭窄的视野限制了其有效性。

大规模数据集的不足

尽管RealEstate 10K和ScanNet++等数据集在大规模室内场景方面有所改进,但它们要么分辨率较低、多样性不足,要么未能涵盖多种室内设置和室外场景。这种规模和多样性的不足是制约3D深度学习模型进行稳健和通用训练的主要挑战。DL3DV-10K正是为了解决这一问题而提出的,旨在提供涵盖多种室内外环境、增强三维空间感知能力的大规模数据集。

图片

4.实验设计和方法

4.1数据采集流程

高效采集管道

论文开发了一套高效的数据采集管道,从视频采集、预处理到分析进行整合。该流程利用广泛可用的消费级手机和无人机,以确保涵盖日常可达的区域。

采集指南

为采集人员提供了详细的指南,包括:

  1. 场景覆盖范围为直径30-45秒步行距离的圆形或半圆形区域

  2. 使用0.5倍超广角模式捕捉宽广的背景信息

  3. 视频应包含至少180°或360°的水平视图,以及不同高度的视角

  4. 视频分辨率为4K,帧率为60fps或30fps

  5. 视频时长至少60秒(手机)或45秒(无人机)

  6. 限制移动物体的出现时长

  7. 避免运动模糊或过度曝光

  8. 捕捉的物体应具有立体感

图片

4.2 数据处理与标注

场景复杂性标注

论文对数据集进行了精细的复杂性标注,包括POI类别、设备型号、光照条件、环境设置、表面特性和高频纹理 

  • 光照条件: 区分为自然光、人工光和两者的组合。

  • 环境设置: 区分室内和室外场景,这对于评估模型在有界和无界空间中的性能至关重要。

  • 表面特性: 通过图像中反射像素的比例及其在视频中的持续时间来估计反射和透明度水平,分为“多”、“中”、“少”和“无”四个等级。

图片

纹理频率估算

论文提出了一种计算纹理频率指标的方法。首先从每个视频中采样100帧,然后将RGB图像转换为灰度并归一化。接着,应用二维双正交小波变换来提取高频能量,并计算LH、HL和HH子带的弗罗贝尼乌斯范数,最终得到归一化后的平均频率指标。

图片

4.3 基准测试集DL3DV-140的构建

采样原则:为了全面评估现有方法,从DL3DV-10K中精心采样了140个静态场景构建DL3DV-140。该基准集旨在保持各种场景复杂性指标的平衡,包括室内与室外、高频与低频、多反射与少反射、多透明与少透明。

实验设置:实验选择了Nerfacto、Instant-NGP、Mip-NeRF 360、Zip-NeRF和3DGS这五种最先进的NVS方法进行对比。为了公平起见,所有方法都在960×560的分辨率下进行训练和评估,并使用7/8的图像用于训练,1/8用于测试。

5. 实验结果分析

5.1 定量结果分析

总体性能

如表3所示,Zip-NeRF、Mip-NeRF 360和3DGS在PSNR、SSIM和LPIPS等所有评估指标上均持续优于Instant-NGP和Nerfacto。Zip-NeRF在PSNR和SSIM均值上表现最佳,但默认批量大小下会消耗更多GPU内存。当其批量大小与其他方法一致时,性能会显著下降。3DGS在SSIM方面表现出色,甚至超过了Mip-NeRF 360。

图片

计算效率

Mip-NeRF 360虽然性能优异(PSNR达到30.98,SSIM为0.91),但其计算效率相对较低,平均训练时间长达48小时。相比之下,Instant-NGP和Nerfacto的训练时间最短,但性能也较差。3DGS在性能和效率之间取得了较好的平衡,训练时间仅为2.1小时。

5.2 奖励设计与策略复杂性场景下的性能比较分析

  • 环境挑战:如图4B所示,在所有复杂性指标中,户外(无界)场景对所有方法最具挑战性,所有方法在该设置下都产生了最低的PSNR和SSIM分数。

  • 纹理频率:结果显示,低频场景是最容易生成新视图的,而高频场景则更具挑战。在低频场景中,Mip-NeRF 360表现优于其他方法,且其较小的标准差表明了在该场景下的鲁棒性。

  • 材质属性:具有更多透明度的场景比透明度较少的场景更具挑战性。

图片

5.3 视觉结果分析

NeRF变体与3DGS的差异

NeRF变体通常会产生“颗粒状”的微结构伪影。它们对距离尺度高度敏感,远距离背景常显得模糊。Instant-NGP在远距离背景中会出现漂浮伪影。尽管Zip-NeRF和Mip-NeRF 360能输出更精细的细节,但它们在高频细节(如草地和树叶)上仍存在混叠问题。相比之下,3DGS在处理混叠问题上表现更好。

处理特殊材质

在处理反射和透明场景时,3DGS在渲染细致和尖锐的光照(如金属或玻璃上的强反射)方面表现出色,并能有效捕捉透明物体的细微边缘。但它倾向于过度简化柔和的反射效果,如窗户上的云彩反射。Zip-NeRF和Mip-NeRF 360对反射光的强度敏感性较低,通常能更普遍地捕捉反射。而Nerfacto和Instant-NGP则难以处理这些复杂的光照效果,经常产生漂浮伪影。

图片

4.2 可泛化NeRF的初步研究

实验设置

论文选择了IBRNet作为基准模型,并在DL3DV-10K数据集上对其进行预训练,然后在新颖视图合成任务中使用的评估数据集上进行微调,并与从头开始训练的IBRNet进行比较。

结果

实验结果表明,在DL3DV-10K上进行预训练显著提升了IBRNet的泛化性能,相比从头训练和在ScanNet++上训练的模型,其在所有评估数据集上的表现都有所改善。这证明了DL3DV-10K作为一个大规模真实世界场景数据集,有潜力推动基于学习的可泛化NeRF方法的发展。

图片

6.论文总结展望

6.1 论文总结

本文通过介绍DL3DV-10K数据集,成功解决了当前深度学习三维视觉领域中缺乏大规模、高多样性、高质量真实世界场景级数据集的关键问题。DL3DV-10K涵盖了来自65种POI位置的10,510个4K分辨率视频,并提供了精细的场景复杂性标注。在此基础上,论文构建了全面的DL3DV-140基准测试集,并对当前最先进的NVS方法进行了深入评估和比较。通过对定量和视觉结果的详细分析,揭示了不同方法在处理复杂真实世界场景(如无界场景、高频纹理、强反射和透明材质)时的优劣。此外,初步研究表明,DL3DV-10K数据集能够有效增强可泛化NeRF模型的性能,使其学习到通用的场景先验知识,这为未来构建三维表示的基础模型奠定了基础。

图片

6.2 论文展望

推动泛化模型发展

本数据集为研究人员提供了宝贵的资源,以探索如何利用大规模真实世界数据训练出更具泛化能力的三维表示模型。未来的工作可以基于DL3DV-10K,开发能够从少量或单张图像中合成新视图的通用NeRF模型。

更复杂的场景挑战

论文指出,户外无界场景是最具挑战性的,未来的研究可以专注于如何更好地处理远近物体差异、光照变化等复杂性。同时,对具有强反射和透明材质的场景进行更精细的渲染仍然是一个重要的研究方向。

多任务应用

DL3DV-10K的丰富标注不仅支持NVS任务,还可以应用于其他三维视觉任务,如三维重建、场景理解和三维定位等。未来的工作可以探索利用该数据集训练跨任务的通用三维视觉模型。


http://www.xdnf.cn/news/18744.html

相关文章:

  • (论文速读)Prompt Depth Anything:让深度估计进入“提示时代“
  • 抽签占卜抖音快手微信小程序看广告流量主开源
  • 基于SpringBoot的演唱会网上订票系统的设计与实现(代码+数据库+LW)
  • 深入浅出理解支持向量机(SVM):从原理到实践
  • 《鸿蒙开发 3 天速成:核心知识点 + 实战案例精讲》
  • Uniapp(Vue2)Api请求封装
  • 解决VSCode无法下载服务器端 Server问的题
  • vue3 + jsx 中使用native ui 组件插槽
  • 使用 mcp-use 构建极简 Web 自动化测试智能体「喂饭教程」
  • http与https配置
  • 管理网络安全
  • FreeRTOS学习笔记(四):任务执行与切换
  • 入门Ubuntu操作系统
  • 类型签名,位置参数,关键字参数
  • 【Jetson】基于llama.cpp部署gpt-oss-20b(推理与GUI交互)
  • 利用Certbot生成ssl证书配置到nginx
  • Redis--2
  • 从下载到运行:MySQL 详细安装配置完整教程
  • Cloudflare 推出 GenAI 安全工具,守护企业数据
  • AI在提升阅读效率的同时,如何加强理解深度?
  • 2025中国生物制造科技创新论坛为何“花落”常德?
  • arm问题
  • 编写Linux下usb设备驱动方法:probe函数中要进行的工作
  • HTML+CSS+JavaScript实现的AES加密工具网页应用,包含完整的UI界面和加密/解密功能
  • 集成电路学习:什么是ONNX开放神经网络交换
  • 网络编程——TCP、UDP
  • ADC-工业信号采集卡-K004规格书
  • JWT用户认证后微服务间如何认证?(双向TLS(mTLS)、API网关、Refresh Token刷新Token)微服务间不传递用户认证Token
  • zookeeper基础概念及部署
  • Redis缓存雪崩缓存击穿缓存穿透的处理方式