DriveDreamer4D
本文提出DriveDreamer4D框架,通过整合自动驾驶世界模型的先验知识来改进4D驾驶场景表征。我们的方法将自动驾驶世界模型[81]作为生成引擎,合成新轨迹视频数据以增强真实驾驶数据集的密度和训练效果。特别地,我们提出新轨迹生成模块(NTGM)来生成多样化的结构化交通条件,DriveDreamer4D运用这些条件独立调控复杂驾驶环境中前景与背景元素的运动动力学。这些条件会随着车辆机动进行同步的视角投影,确保合成数据符合时空约束。随后提出表亲数据训练策略(CDTS),将时序对齐的真实数据与合成数据融合用于训练4D高斯溅射(4DGS),并通过正则化损失保证感知一致性。
据我们所知,DriveDreamer4D是首个利用视频生成模型提升自动驾驶4D场景重建质量的框架,为变道、加速和减速等场景提供丰富的多视角数据。如图1所示,实验结果表明DriveDreamer4D显著提升了新轨迹视角的生成保真度,与PVG[9]、S3Gaussian[28]和Deformable-GS[74]相比,FID指标分别实现32.1%、46.4%和16.3%的相对提升。同时,该框架增强了前景与背景元素的时空一致性,在NTA-IoU指标上分别提升22.6%、43.5%和15.6%。综合用户研究显示,相较于三个基线模型,DriveDreamer4D的平均胜率超过80%。
本研究的主要贡献包括:
(1)提出首个利用世界模型先验知识推进自动驾驶4D场景重建的框架DriveDreamer4D;
(2)设计NTGM模块自动生成结构化条件,使框架能创建具有复杂机动且保持时空一致性的新轨迹视频,并引入CDTS策略融合时序对齐的真实与合成数据训练4DGS,通过正则化损失保持感知一致性;
(3)通过全面实验验证DriveDreamer4D显著提升新轨迹视角的生成质量及驾驶场景元素的时空一致性。