当前位置: 首页 > news >正文

SECERN AI提出3D生成方法SVAD!单张图像合成超逼真3D Avatar!

SECERN AI提出的3D生成方法SVAD通过视频扩散生成合成训练数据,利用身份保留和图像恢复模块对其进行增强,并利用这些经过优化的数据来训练3DGS虚拟形象。SVAD在新的姿态和视角下保持身份一致性和精细细节方面优于现有最先进(SOTA)的单张图像方法,同时具备实时渲染能力。

相关链接

  • 论文:https://arxiv.org/pdf/2505.05475

  • 代码:https://yc4ny.github.io/SVAD

论文介绍

由于从单一视角重建完整 3D 信息本身就存在困难,因此从单幅图像创建高质量的可动画 3D 人体形象在计算机视觉领域仍然是一项重大挑战。当前的方法面临一个明显的局限性:3D 高斯扩散 (3DGS) 方法虽然能生成高质量的结果,但需要多个视角或视频序列;而视频扩散模型虽然可以从单幅图像生成动画,但在一致性和身份保留方面却存在困难。

我们提出了 SVAD,这是一种新颖的方法,它利用现有技术的互补优势来解决这些局限性。我们的方法通过视频扩散生成合成训练数据,并通过身份保留和图像恢复模块对其进行增强,并利用这些精炼数据来训练 3DGS 形象。综合评估表明,SVAD 在保持身份一致性和精细细节方面优于最先进的 (SOTA) 单幅图像方法,同时还具备实时渲染功能。通过我们的数据增强流程,我们克服了传统 3DGS 方法通常需要的对密集单目或多视角训练数据的依赖。

大量的定量和定性比较表明,我们的方法在多个指标上均优于基线模型。通过有效地结合扩散模型的生成能力与 3DGS 的高质量结果和渲染效率,工作建立了一种基于单幅图像输入生成高保真虚拟形象的新方法。

方法概述

SVAD 的整体流程。 扩散模型从单幅输入图像开始,生成基于姿势的动画,并使用身份保存模块和图像恢复模块进行优化。优化后的输出随后用于训练 3DGS 虚拟人物,从而生成高保真、可动画化的 3D 虚拟人物,并在不同姿势和视角下保持细节的一致性。

SVAD 训练的 3D 虚拟形象。SVAD 仅需一张图像即可生成高质量的 3D 虚拟形象。训练后的虚拟形象可以从任意视角、以任意姿势进行渲染。

SVAD 训练的 3D 虚拟形象。SVAD 仅需一张图像即可生成高质量的 3D 虚拟形象。训练后的虚拟形象可以从任意视角、以任意姿势进行渲染。

实验结果

对人物快照数据集和人类数据集扫描渲染图进行定性评估。SVAD 仅通过单幅图像输入即可生成高质量、可动画化的 3D 虚拟形象。

结论

论文介绍了一种新颖的合成数据生成方法SVAD,该方法用于从单幅图像创建高保真、可动画化的 3D 人体头像。通过结合扩散模型的生成能力和 3D 高斯分布的渲染效率,SVAD 生成的头像能够在不同的姿势和视角下保持一致的身份。通过全面的实验证明了我们的方法达到了 SOTA 的性能。

局限性和未来工作: 该方法面临几个局限性。首先,训练帧的背景分割不准确会产生漂浮伪影。其次,由于视频扩散模型在生成精细合成数据方面的局限性,提出的方法难以处理复杂的服装纹理和宽松的服装。最后,计算需求带来了实际挑战——视频扩散步骤需要大量资源,每个头像生成的完整流程需要 5-6 小时。未来的工作将侧重于改进对不同服装类型的处理并优化计算性能。

http://www.xdnf.cn/news/498907.html

相关文章:

  • Windows系统部署MongoDB数据库图文教程
  • 机器学习-人与机器生数据的区分模型测试-数据处理 - 续
  • 【漫话机器学习系列】263.线性插值(Interpolation)
  • img.dims() <= 2 in function ‘cv::matchTemplate报错
  • Mysql 刷题 day05
  • 数学复习笔记 19
  • 1.2.1电商平台
  • 探索C++对象模型:(拷贝构造、运算符重载)成员函数的深度解读(中篇)
  • 力扣HOT100之二叉树:98. 验证二叉搜索树
  • 【网络入侵检测】基于Suricata源码分析运行模式(Runmode)
  • STM32烧录程序正常,但是运行异常
  • 实战2:利用Python与AI模型实现文本分类
  • STM32F103定时器1每毫秒中断一次
  • 机器学习中的过拟合及示例
  • 咖啡叶子病害检测数据集VOC+YOLO格式1468张4类别均为单叶子
  • mac-M系列芯片安装软件报错:***已损坏,无法打开。推出磁盘问题
  • PySide6 GUI 学习笔记——常用类及控件使用方法(常用类颜色常量QColorConstants)
  • JavaScript 中的 for...in 和 for...of 循环详解
  • 深入理解 TypeScript 中的 unknown 类型:安全处理未知数据的最佳实践
  • Qt Widgets模块功能详细说明,基本控件:QLabel(一)
  • 园区综合能源系统容量优化配置全流程解析:从业务逻辑到 MATLAB 实现
  • 计算机视觉与深度学习 | Matlab实现EMD-LSTM和LSTM时间序列预测对比(完整源码和数据)
  • 计算机视觉与深度学习 | Python实现EMD-SSA-VMD-LSTM-Attention时间序列预测(完整源码和数据)
  • C语言指针深入详解(一):内存和地址、指针变量和地址、指针变量类型的意义、指针运算
  • 2025.05.17淘天机考笔试真题第三题
  • Compose笔记(二十三)--多点触控
  • 1688 数据接口调用秘籍:高效获取商品实时信息的开发指南
  • Redis技术深度解析
  • Elasticsearch 查询与过滤(Query vs. Filter)面试题
  • Vue3(一)