当前位置: 首页 > backend >正文

CVPR 2025 | 具身智能 | HOLODECK:一句话召唤3D世界,智能体的“元宇宙练功房”来了

关注gongzhonghao【CVPR顶会精选

1.导读

1.1 论文基本信息

  • 论文标题:《HOLODECK: Language Guided Generation of 3D Embodied AI Environments》

  • 作者Yue Yang*1, Fan-Yun Sun*2, Luca Weihs*4, Eli Vanderbilt4, Alvaro Herrasti4,Winson Han4, Jiajun Wu2, Nick Haber2, Ranjay Krishna3,4, Lingjie Liu1,Chris Callison-Burch1, Mark Yatskar1, Aniruddha Kembhavi3,4, Christopher Clark4

  • 作者单位宾夕法尼亚大学、斯坦福大学、华盛顿大学、艾伦人工智能研究所等

  • 发表会议:CVPR(计算机视觉与模式识别会议)

  • 论文链接https://arxiv.org/abs/2312.09067

图灵学术论文辅导

2.论文概述

2.1 问题与背景

该论文提出了一种名为HOLODECK的系统,旨在通过文本描述自动生成多样化、可定制且可交互的3D具身智能环境,以解决现有3D环境生成方法需要大量人工投入且多样性受限的问题。HOLODECK利用大型语言模型的常识知识来理解复杂的用户查询,并通过约束优化方法来合理布局场景中的物体,从而确保生成环境的物理合理性和语义一致性

图片

2.2 系统模块核心

HOLODECK系统的核心在于其模块化设计,它将复杂的3D场景生成任务分解为四个子模块:楼层与墙体、门窗、物体选择和基于约束的布局设计。这种方法使其能够根据用户输入的提示词,自动生成符合特定风格或包含精细化需求的场景。论文通过大规模人类评估,证明HOLODECK生成的住宅场景优于现有的程序化基线方法,并且能够生成高质量的多样化场景。此外,研究还展示了HOLODECK在具身智能中的应用,证明了使用HOLODECK生成的新颖场景训练智能体,可以显著提升其在零样本物体导航任务中的泛化能力 。

图片

3.研究背景及相关工作

3.1 具身智能环境的挑战

具身智能体的训练通常依赖于模拟器环境。然而,现有的3D环境生成方法面临着诸多挑战。传统方法如人工设计或3D扫描,需要耗费大量人力和专业知识,且难以大规模扩展和保证场景的多样性。虽然程序化生成框架能够生成大规模交互式环境,但其依赖于硬编码规则,限制了场景的丰富性和可定制性。

图片

3.3 2D基础模型与3D场景生成

一些工作尝试将2D基础模型应用于文本驱动的3D场景生成。然而,这些方法通常会产生网格失真等明显伪影,且缺乏具身智能所需的交互性。另一些模型虽然专注于特定的任务,如平面图生成或物体排列,但它们通常缺乏整体场景的一致性,且严重依赖于特定任务的数据集。

图片

3.3 文本驱动的3D生成

早期的文本驱动3D生成工作主要侧重于从类别特定的数据集中学习3D形状或纹理。随着大型视觉-语言模型的出现,实现了零样本的3D纹理和物体生成。但这些方法在生成复杂3D场景时表现不佳。与这些方法不同,HOLODECK利用了一个包含海量资产的3D数据库,以生成语义精确、空间高效且可交互的3D环境 。

4.实验设计和方法

4.1 总体架构设计

HOLODECK是一个基于A12-THOR框架并结合了Objaverse海量资产的系统,其核心思想是利用大型语言模型将高级别的自然语言描述转化为一系列用于构建3D场景的低级别指令。整个场景的生成过程被分解为四个相互协作的模块,每个模块都通过与LLM进行多轮对话来完成特定的任务。

楼层与墙体模块:

  • 该模块负责创建房间的平面图、构建墙体结构,并为地板和墙壁选择合适的材料。LLM会直接生成房间的坐标和连接信息,每个房间被定义为由四个元组坐标确定的矩形。该模块能够根据复杂的输入生成精细的多房间平面图。此外,它还能从236种材料和148种颜色中进行匹配,以实现场景的语义定制化。

图片

物体选择模块:

  • 该模块允许LLM根据场景描述来选择合适的物体。HOLODECK利用庞大的Objaverse资产库,根据LLM建议的描述和尺寸来检索最佳的3D资产。

基于约束的布局设计模块:

  • HOLODECK预定义了十种空间关系约束,分为五类:全局、距离、位置、对齐和旋转。这些约束被视为软约束,并通过一个优化算法来解决,以找到满足最多约束的合理布局。同时,系统还强制执行硬约束,以防止物体碰撞并确保所有物体都在房间边界内。

图灵学术论文辅导

5. 实验结果分析

5.1 住宅场景的人类评估

在一项与PROCTHOR的对比研究中,680名参与者对HOLODECK和PROCTHOR生成的住宅场景进行了评估。结果显示,在资产选择、布局一致性和整体偏好三个方面,人类评估者都明显偏向HOLODECK。

在整体偏好上,64.4%的评估者更喜欢HOLODECK,而只有23.3%的评估者更喜欢PROCTHOR。此外,使用CLIP分数进行的视觉一致性量化评估也显示,HOLODECK的得分显著高于PROCTHOR,且接近人类专家设计的场景,进一步证明了其生成视觉连贯场景的能力。

图片

5.2 多样化场景的生成能力

为了评估HOLODECK在住宅场景之外的表现,研究人员让人类对52种不同类型的场景进行了评分。结果表明,HOLODECK在超过一半(28/52)的场景类型上获得了比PROCTHOR更高的平均偏好分数。

图片

5.3 在具身智能中的应用

论文展示了HOLODECK在具身智能中的一个激动人心的应用:零样本物体导航。研究人员在一个名为NOVELTYTHOR的新颖基准上进行了实验。结果显示,使用HOLODECK生成的新场景进行微调的智能体,其零样本导航成功率和路径长度加权成功率都显著高于基线模型。这表明HOLODECK生成的训练环境能够帮助智能体更好地泛化到以前未见过的场景和物体类型。论文指出,HOLODECK在物体放置上的能力,是其优于基线的主要原因之一 。

图片

6.论文总结展望

6.1 论文总结

该论文成功地提出了HOLODECK系统,一个由大型语言模型驱动的、能够从文本描述中生成多样化和可交互的3D具身智能环境的系统。

HOLODECK通过将生成过程分解为多个模块,并利用LLM的常识知识和一种新颖的基于空间关系约束的布局优化方法,克服了传统方法在多样性、可定制性和物理合理性方面的局限。

大规模的人类评估结果一致表明,HOLODECK生成的场景质量优于现有基线,且能够很好地泛化到各种场景类型。此外,通过零样本物体导航实验,研究还验证了HOLODECK生成的场景在训练具身智能体方面的实用性。

图片

6.2 论文展望

尽管HOLODECK取得了显著成就,但论文也指出了一些局限性。目前,该系统在处理需要非常复杂布局或需要其资产库中不存在的独特物体(如牙科诊所的X光机)的场景时仍然面临挑战。未来工作的方向可以包括扩大资产库,并引入更复杂的布局算法来解决这些问题。此外,该系统为进一步探索文本驱动的3D交互式场景生成开辟了新的途径。

本文选自gongzhonghao【CVPR顶会精选

http://www.xdnf.cn/news/18167.html

相关文章:

  • 【HTML】3D动态凯旋门
  • 通过C#上位机串口写入和读取浮点数到stm32的片内flash实战4(通过串口下发AD9833设置值并在上位机显示波形曲线)
  • “你不干有的是AI干”,提示词中的“情感化提示”
  • 如何在 Ubuntu Linux 上安装 RPM 软件包
  • 【SQL优化案例】统计信息缺失
  • Vercel v0 iOS版重磅发布:AI驱动的移动开发新篇章
  • 如何解决pip安装报错ModuleNotFoundError: No module named ‘paramiko’问题
  • C++入门自学Day14-- Stack和Queue的自实现(适配器)
  • Java高级面试实战:Spring Boot微服务与Redis缓存整合案例解析
  • “R语言+遥感”的水环境综合评价方法实践技术应用
  • Centos7物理安装 Redis8.2.0
  • 【GNSS定位原理及算法杂记6】​​​​​​PPP(精密单点定位)原理,RTK/PPK/PPP区别讨论
  • 【部署相关】DockerKuberbetes常用命令大全(速查+解释)
  • 孩子王披露半年报:多数据持续增长,全年预期增强
  • git仓库和分支的关系
  • Linux GPIO子系统中开漏模式软件仿真机制的深度分析
  • 【深度学习计算性能】06:多GPU的简洁实现
  • 树状数组/差分数组/线段树/莫队算法介绍
  • 政务窗口服务满意度调查:服务型政府建设赋能方案(北京市场调研)
  • 2025年12大AI测试自动化工具
  • 电子电气架构 --- 软件项目风险管理
  • 「内力探查术」:用 Instruments 勘破 SwiftUI 卡顿迷局
  • Android Coil 3拦截器Interceptor计算单次请求耗时,Kotlin
  • 软件测试-Selenium学习笔记
  • Node.js 在 Windows Server 上的离线部署方案
  • Linux系统安全补丁管理与自动化部署研究与实现(LW+源码+讲解+部署)
  • 2.Kotlin 集合 List 所有方法
  • 云原生俱乐部-mysql知识点归纳(3)
  • 告别 Dify 工作流,让 NL2SQL 落地更直接
  • HarmonyOS 中的 泛型类和泛型接口