当前位置：首页 > news >正文

阿里联合北大开源数字人项目FantasyTalking，输出内容更加动态化～

news 2025/7/2 22:42:08

简介

在这里插入图片描述

FantasyTalking 的核心目标是从单一静态图像、音频（以及可选的文本提示）生成高保真、连贯一致的说话肖像。研究表明，现有方法在生成可动画化头像时面临多重挑战，包括难以捕捉细微的面部表情、整体身体动作以及动态背景的协调性。该项目旨在解决这些问题，通过先进的 AI 技术实现更高质量的生成。

现有方法往往在面部表情的细腻度和身体动作的自然性上表现不佳，尤其是在动态背景的整合上。

FantasyTalking 的动机是提供一个统一的框架，能够生成不仅限于唇部动作的动态肖像，包括表情和身体动作的控制。

在这里插入图片描述

FantasyTalking 的技术结构基于先进的机器学习模型和算法，具体包括以下核心组件：

基于预训练的视频扩散变换器模型 Wan2.1-I2V-14B-720P，用于生成高保真的视频内容。

音频编码器使用 Wav2Vec2-base-960h 处理音频输入，确保音频与视频的同步性。

在这里插入图片描述

在这里插入图片描述

双阶段训练
- 第一阶段（片段级）：通过对整个场景（包括头像、背景对象和背景）进行音频驱动的动态对齐，实现全局动作的连贯性。
- 第二阶段（帧级）：使用唇形追踪掩码（lip-tracing mask）精细调整唇部动作，以确保与音频信号的精确同步。
这一策略确保了生成视频的整体流畅性和音频-视频的精确匹配。

在单个 A100 GPU 上（512x512 分辨率，81 帧）：

以下是性能对比表：
在这里插入图片描述

在这里插入图片描述