WorldExplorer:基于文本生成的可探索3D虚拟世界
引言:从2D想象到3D探索
当AI生成图像的技术突破10亿参数大模型后,人类开始追问:能否让AI直接构建可交互的3D世界? WorldExplorer给出了肯定答案——通过文本提示生成完全可导航的3D场景,用户可从任意角度自由探索。这项技术不仅重构了3D内容创作范式,更将AI生成能力从“静态画面”推向“动态空间”。
一、技术突破:重新定义3D生成范式
1. 三大核心创新
- 首次实现文本到3D的动态生成:
传统3D建模需依赖专业软件(如Blender)或扫描设备,而WorldExplorer通过文本提示直接生成可交互场景。 - 摄像头引导的视频扩散模型:
借助视频生成技术(如Runway ML的Gen-2),通过迭代生成实现3D一致性,解决视角切换时的视觉断层问题。 - 场景记忆机制:
动态存储历史帧与相机姿态,确保生成过程中的空间连贯