当前位置: 首页 > web >正文

⭐CVPR 文本到 3D 场景生成新突破:Prometheus 框架解析

📄论文题目:Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation
✍️作者及机构:Yuanbo Yang、Jiahao Shao、Xinyang Li、Yujun Shen、Andreas Geiger、Yiyi Liao(浙江大学、厦门大学、蚂蚁集团、University of T¨ubingen)
🧩面临问题:当前 3D 生成模型存在泛化能力有限、效率低下及质量问题。一方面,依赖 3D / 多视图数据或单一类别单视图图像的模型泛化能力弱,因训练数据稀缺;另一方面,利用 2D 数据的方法多通过优化生成 3D 表示,过程耗时,且因 2D 模型缺乏 3D 完整理解,易出现多视图不一致(Janus 问题)和保真度低的情况2。
在这里插入图片描述
🎯创新点及其具体研究方法:
1️⃣ 前馈式 3D 高斯生成框架:将 3D 场景生成表述为潜在扩散范式下的多视图、前馈、像素对齐 3D 高斯生成,实现无需迭代优化的直接生成,大幅提升效率,使 3D 场景生成时间缩短至秒级13。
2️⃣ RGB-D 潜空间引入:在 3D 高斯生成中引入 RGB-D 潜空间,分离外观和几何信息。通过预训练的 Stable Diffusion 编码器分别编码 RGB 图像和深度图, concatenate 得到联合潜空间,助力生成具有更高保真度和更优几何结构的 3D 高斯46。
3️⃣ 两阶段训练策略:第一阶段训练 3D 高斯变分自编码器(GS-VAE),以多视图或单视图 RGB-D 图像为输入,预测像素对齐 3D 高斯,编码器复用 Stable Diffusion 编码器,解码器基于其修改;第二阶段训练多视图潜扩散模型(MV-LDM),结合文本提示和相机姿态,联合预测多视图 RGB-D 潜码,且在 9 个多视图和单视图数据集上训练以增强泛化性578。
4️⃣ 混合采样与 CFG-rescale 策略:采用混合采样 guidance,通过文本和姿态引导权重平衡多视图一致性与保真度;同时使用 CFG-rescale 避免条件采样中的过饱和问题,提升生成质量9。

#论文 #3D 生成 #计算机视觉 #深度学习 #文本到 3D #潜在扩散模型 #前馈式生成

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.xdnf.cn/news/17242.html

相关文章:

  • 贪心算法学习 跳跃游戏
  • app-3
  • 实习文档背诵
  • 2.1.4 砌体材料的性能与应用
  • SG105 Pro 网管交换机的3种VLAN配置
  • 强化应急通信生命线:遨游三防平板、卫星电话破局极端灾害救援
  • 无人机图传的得力助手:5G 便携式多卡高清视频融合终端的协同应用
  • Tdesign-React 请求接口 415 问题借助 chatmaster 模型处理记录
  • 嵌入式学习的第四十四天-ARM
  • 图解 Claude Code 子智能体 Sub-agent
  • CGAL Kernel 和 Traits 类深度解析:从官方教程到实践应用
  • 爆炸粒子效果
  • 记一次ORACLE ORA-00600 [19004] 错误的分析与解决方法
  • python每日一题 贪心算法
  • 【第6话:相机模型2】相机标定在自动驾驶中的作用、相机标定方法详解及代码说明
  • Python虚拟环境完全指南:pyenv vs venv 在macOS上的使用详解
  • 【代码随想录day 12】 力扣 102.107.199. 二叉树的层序遍历
  • SQL Server 2000企业管理器不能执行查询
  • cygwin+php教程(swoole扩展+redis扩展)
  • 利用DeepSeek改写并增强测试Duckdb和sqlite的不同插入方法性能
  • 高可用改造之构建​​双活冗余的TDengine时序数据处理架构
  • LeetCode——2411. 按位或最大的最小子数组长度
  • 浮动路由和BFD配置
  • 协同过滤基础——基线预测器(Baseline Predictors)
  • hyper-v实战系列:显卡虚拟化(GPU分区)--windows篇详解
  • Spring配置JDBC,使用JdbcTemplate套件和Druid套件
  • java回顾八股文中想起的知识点
  • Docker使用的常见问题
  • 开源密码恢复实用程序 Hashcat 7.0.0 发布
  • cf.训练