当前位置: 首页 > news >正文

阿里联合北大开源数字人项目FantasyTalking,输出内容更加动态化~

简介

在这里插入图片描述

FantasyTalking 的核心目标是从单一静态图像、音频(以及可选的文本提示)生成高保真、连贯一致的说话肖像。研究表明,现有方法在生成可动画化头像时面临多重挑战,包括难以捕捉细微的面部表情、整体身体动作以及动态背景的协调性。该项目旨在解决这些问题,通过先进的 AI 技术实现更高质量的生成。

挑战与动机

现有方法往往在面部表情的细腻度和身体动作的自然性上表现不佳,尤其是在动态背景的整合上。

FantasyTalking 的动机是提供一个统一的框架,能够生成不仅限于唇部动作的动态肖像,包括表情和身体动作的控制。

模型架构

在这里插入图片描述

FantasyTalking 的技术结构基于先进的机器学习模型和算法,具体包括以下核心组件:

核心模型

基于预训练的视频扩散变换器模型 Wan2.1-I2V-14B-720P,用于生成高保真的视频内容。

音频编码器使用 Wav2Vec2-base-960h 处理音频输入,确保音频与视频的同步性。

在这里插入图片描述

音视频对齐策略

在这里插入图片描述

  • 双阶段训练

    • 第一阶段(片段级):通过对整个场景(包括头像、背景对象和背景)进行音频驱动的动态对齐,实现全局动作的连贯性。
    • 第二阶段(帧级):使用唇形追踪掩码(lip-tracing mask)精细调整唇部动作,以确保与音频信号的精确同步。
  • 这一策略确保了生成视频的整体流畅性和音频-视频的精确匹配。

身份保留:

  • 采用面部专注的交叉注意力模块(facial-focused cross-attention module),替代传统的参考网络。

  • 这一模块在保持面部一致性的同时,不限制动作的灵活性,避免了身份信息丢失的问题。

动作控制

  • 集成了动作强度调制模块(motion intensity modulation module),允许用户显式控制面部表情和身体动作的强度。

  • 这一模块支持生成更动态的肖像,例如通过调整参数可以控制手势、头部转动等动作。

性能

在单个 A100 GPU 上(512x512 分辨率,81 帧):

  • 使用 torch.bfloat16 时,速度为 15.5s/帧,VRAM 占用 40G。

  • 通过限制持久参数数量,可以降低 VRAM 占用至 5G,但速度降低至 42.6s/帧。

以下是性能对比表:
在这里插入图片描述

性能对比

在这里插入图片描述

在这里插入图片描述

看看效果

相关文献

github项目地址:https://github.com/Fantasy-AMAP/fantasy-talking
官方地址:https://fantasy-amap.github.io/fantasy-talking/
在线体验地址:https://huggingface.co/spaces/acvlab/FantasyTalking
技术报告:https://arxiv.org/pdf/2504.04842

http://www.xdnf.cn/news/317593.html

相关文章:

  • HarmonyOS Next~HarmonyOS应用测试全流程解析:从一级类目上架到二级类目专项测试
  • 游戏引擎学习第262天:绘制多帧性能分析图
  • 标量/向量/矩阵/张量/范数详解及其在机器学习中的应用
  • MCP 入门指南
  • Kubernetes生产环境实战:深度排查Pod内存溢出(OOM)问题指南
  • 优选算法系列(8.多源BFS)
  • Vue3响应式:effect作用域
  • linux命令>/dev/null 2>1的含义
  • 【北京迅为】iTOP-4412精英版使用手册-第七章 Android 4.0/Linux源码编译
  • 在 Vue 2 中使用 qrcode 库生成二维码
  • Python 识别图片上标点位置
  • CSDN文章都是VIP
  • Ubuntu 使用dotfiles个性化配置模板
  • 使用 Apache POI 生成包含文本和图片的 Word 文档
  • 【MCP】从0到1实现一个MCP Client
  • 【Python类(Class)完全指南】面向对象编程入门
  • 阿里云服务器-centos部署定时同步数据库数据-dbswitch
  • 【Django】中间件
  • 软件工程(三):模块的内聚模型
  • 如何在大型项目中解决 VsCode 语言服务器崩溃的问题
  • 政务浏览器 一站式首页功能配置说明
  • 极狐GitLab 命名空间的类型有哪些?
  • css animation 动画属性
  • 华为昇腾910B通过vllm部署InternVL3-8B教程
  • 大模型系列(五)--- GPT3: Language Models are Few-Shot Learners
  • IPFS集群部署
  • Linux/AndroidOS中进程间的通信线程间的同步 - 信号量
  • Java游戏服务器开发流水账(1)游戏服务器的架构浅析
  • Wireshark抓账号密码
  • 一文走进GpuGeek | conda常用命令