AAAI2025论文整理-数字人驱动方向
EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions
由音频输入推动的人像图像动画领域在生成逼真和动态的人像方面取得了显着进步。传统方法仅限于利用音频或面部关键点将图像驱动到视频中,虽然它们可以产生令人满意的结果,但存在某些问题。例如,由于音频信号相对较弱,仅由音频驱动的方法有时会不稳定,而仅由面部关键点驱动的方法虽然在驾驶中更稳定,但由于对关键点信息的过度控制,可能会导致不自然的结果。为了解决前面提到的挑战,在本文中,我们介绍了一种我们称之为 EchoMimic 的新方法。EchoMimic 同时使用音频和面部特征点进行训练。通过实施一种新颖的训练策略,EchoMimic 不仅能够单独通过音频和面部特征生成肖像视频,还能够通过音频和选定的面部特征的组合来生成肖像视频。EchoMimic 已与各种公共数据集和我们收集的数据集中的替代算法进行了全面比较,在定量和定性评估方面都表现出卓越的性能。代码和模型可在项目页面上找到。
DIDiffGes: Decoupled Semi-Implicit Diffusion Models for Real-time Gesture Generation from Speech
扩散模型在生成共声手势方面表现出卓越的合成质量和多样性。然而,与扩散模型相关的计算密集型采样步骤阻碍了它们在实际应用中的实用性。因此,我们提出了 DIDiffGes,用于基于 Decoupled Semi-Implicit Diffusion 模型的框架,该框架只需几个采样步骤即可从语音中合成高质量、富有表现力的手势。我们的方法利用生成对抗网络 (GAN) 来实现扩散模型的大步采样。我们将手势数据解耦为身体和手部分布,并进一步将它们分解为边缘分布和条件分布。GAN 隐式地对边际分布进行建模,而 L2 重建损失则单独学习条件分布。此策略可增强 GAN 训练的稳定性,并确保生成的全身手势的表现力。我们的框架还学习了根据局部身体表现对根噪声进行降噪,从而保证了稳定性和真实感。DIDiffGes 只需 10 个采样步骤即可从语音生成手势,而不会影响质量和表现力,与现有方法相比,采样步骤的数量减少了 100 倍。我们的用户研究表明,我们的方法在人类相似度、适当性和风格正确性方面优于最先进的方法。
Occlusion-Insensitive Talking Head Video Generation via Facelet Compensation
说话头像视频生成涉及使用从驱动视频中获取的面部运动线索为静止的面部图像制作动画,以复制目标姿势和表情。传统方法通常依赖于面部关键点的相对位置保持不变的假设。但是,当关键点被遮挡或头部处于轮廓姿势时,此假设会失败,从而导致身份不一致和某些面部区域模糊。在本文中,我们介绍了 Occlusion-Insensitive Talking Head Video Generation,这是一种新方法,它消除了对关键点空间相关性的依赖,而是利用语义相关性。我们的方法将面部特征转换为 facelet 语义库,其中每个 facelet 标记代表一个特定的面部语义。此 SoundBank 不包含空间信息,因此可以在运动变形期间补偿任何不可见或被遮挡的面部区域。然后,Facelet 补偿模块通过学习面部语义和 Facelet Bank 之间的关联矩阵,在最初扭曲的特征中填充 Facelet 标记。这种方法可以精确补偿遮挡和姿势变化,从而提高生成视频的保真度。广泛的实验表明,我们的方法获得了最先进的结果,保留了源身份,保持了细粒度的面部细节,并以非常高的准确性捕捉了细微的面部表情。
ID-Sculpt: ID-aware 3D Head Generation from Single In-the-wild Portrait Image
虽然最近的工作在一次性 3D 常见对象生成方面取得了巨大成功,但从单个图像生成高质量和保真度的 3D 头部仍然是一个巨大的挑战。以前基于文本的 3D 头部生成方法受到文本描述的限制,而基于图像的方法难以生成高质量的头部几何形状。为了解决这个具有挑战性的问题,我们提出了一种新的框架 ID-Sculpt,以生成高质量的 3D 头部,同时保留其身份。我们的工作将肖像图像的身份信息分为三个部分:1) 几何初始化,2) 几何雕刻,以及 3) 纹理生成阶段。给定一张参考人像图像,我们首先将身份特征与文本特征对齐,实现 ID 感知引导增强,其中包含代表人脸信息的控制信号。然后,我们使用磁量映射、肖像图像的 ID 特征和预先训练的文本到法线/深度扩散模型来生成 ID 感知几何监督,并采用 3D-GAN 反转来生成 ID 感知几何初始化。此外,由于能够将身份信息注入 3D 头部生成中,我们使用 ID 感知指导来计算用于几何雕刻的 ID 感知分数蒸馏 (ISD)。对于纹理生成,我们采用 ID Consistent Texture Inpainting and Refinement,它逐步扩展纹理修复的视图,以获得初始化的 UV 纹理贴图。然后,我们使用 ID 感知指南为有噪声的多视图图像提供图像级监督,以获得精细的纹理映射。大量实验表明,我们可以从单个野外肖像图像中生成具有精确几何形状和纹理的高质量 3D 头部。
FlexiTex: Enhancing Texture Generation via Visual Guidance
最近的纹理生成方法取得了令人印象深刻的结果,因为它们利用了强大的生成先验,来自大规模文本到图像扩散模型。但是,抽象文本提示在提供全局纹理或形状信息方面受到限制,这会导致纹理生成方法产生模糊或不一致的图案。为了解决这个问题,我们推出了 FlexiTex,通过视觉引导嵌入丰富的信息,以生成高质量的纹理。FlexiTex 的核心是视觉引导增强模块,它整合了来自视觉引导的更具体的信息,以减少文本提示中的歧义并保留高频细节。为了进一步增强视觉引导,我们引入了一个方向感知自适应模块,该模块根据不同的相机姿势自动设计方向提示,避免了 Janus 问题并保持语义全局一致性。得益于视觉引导,FlexiTex 产生了定量和定性上合理的结果,展示了它为实际应用推进纹理生成的潜力。
DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation
语音驱动的 3D 面部动画因其广泛的应用而引起了很多关注。尽管最近在实现逼真的嘴唇运动方面取得了进展,但目前的方法无法捕捉到通过语音传达的细微情感底色,并产生单调的面部运动。这些限制会导致生硬和重复的面部动画,从而降低用户参与度并阻碍其适用性。为了应对这些挑战,我们引入了 DEEPTalk,这是一种新颖的方法,可以直接从语音输入生成多样化且情感丰富的 3D 面部表情。为了实现这一目标,我们首先训练 DEE (Dynamic Emotion Embedding),它采用概率对比学习为语音和面部运动打造一个联合情感嵌入空间。这个概率框架捕捉了从语音和面部动作中解释情绪的不确定性,从而能够从其多面空间中推导出情感向量。此外,为了产生动态的面部运动,我们在克服 VAE 和 VQ-VAE 的局限性之前,将 TH-VQVAE (Temporal Hierarchical VQ-VAE) 设计为一种富有表现力和稳健的运动。利用这些强大的先验,我们开发了 DEEPTalk,这是一个会说话的头部生成器,它可以非自回归地预测码本索引以创建动态的面部运动,并结合了一种新的情绪一致性损失。对各种数据集的广泛实验表明,我们的方法在创建多样化、情感表达丰富的谈话面孔方面的有效性,这些面孔保持准确的口型同步。我们的项目页面可在 https://whwjdqls.github.io/deeptalk.github.io/ 上找到。