当前位置：首页 > web >正文

数字人驱动方向最新顶会期刊论文收集整理 | AAAI 2025

web 2025/7/2 2:25:24

EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions

由音频输入推动的人像图像动画领域在生成逼真和动态的人像方面取得了显着进步。传统方法仅限于利用音频或面部关键点将图像驱动到视频中，虽然它们可以产生令人满意的结果，但存在某些问题。例如，由于音频信号相对较弱，仅由音频驱动的方法有时会不稳定，而仅由面部关键点驱动的方法虽然在驾驶中更稳定，但由于对关键点信息的过度控制，可能会导致不自然的结果。为了解决前面提到的挑战，在本文中，我们介绍了一种我们称之为 EchoMimic 的新方法。EchoMimic 同时使用音频和面部特征点进行训练。通过实施一种新颖的训练策略，EchoMimic 不仅能够单独通过音频和面部特征生成肖像视频，还能够通过音频和选定的面部特征的组合来生成肖像视频。EchoMimic 已与各种公共数据集和我们收集的数据集中的替代算法进行了全面比较，在定量和定性评估方面都表现出卓越的性能。代码和模型可在项目页面上找到。

DIDiffGes: Decoupled Semi-Implicit Diffusion Models for Real-time Gesture Generation from Speech

扩散模型在生成共声手势方面表现出卓越的合成质量和多样性。然而，与扩散模型相关的计算密集型采样步骤阻碍了它们在实际应用中的实用性。因此，我们提出了 DIDiffGes，用于基于 Decoupled Semi-Implicit Diffusion 模型的框架，该框架只需几个采样步骤即可从语音中合成高质量、富有表现力的手势。我们的方法利用生成对抗网络（GAN）来实现扩散模型的大步采样。我们将手势数据解耦为身体和手部分布，并进一步将它们分解为边缘分布和条件分布。GAN 隐式地对边际分布进行建模，而 L2 重建损失则单独学习条件分布。此策略可增强 GAN 训练的稳定性，并确保生成的全身手势的表现力。我们的框架还学习了根据局部身体表现对根噪声进行降噪，从而保证了稳定性和真实感。DIDiffGes 只需 10 个采样步骤即可从语音生成手势，而不会影响质量和表现力，与现有方法相比，采样步骤的数量减少了 100 倍。我们的用户研究表明，我们的方法在人类相似度、适当性和风格正确性方面优于最先进的方法。

Occlusion-Insensitive Talking Head Video Generation via Facelet Compensation

说话头像视频生成涉及使用从驱动视频中获取的面部运动线索为静止的面部图像制作动画，以复制目标姿势和表情。传统方法通常依赖于面部关键点的相对位置保持不变的假设。但是，当关键点被遮挡或头部处于轮廓姿势时，此假设会失败，从而导致身份不一致和某些面部区域模糊。在本文中，我们介绍了 Occlusion-Insensitive Talking Head Video Generation，这是一种新方法，它消除了对关键点空间相关性的依赖，而是利用语义相关性。我们的方法将面部特征转换为 facelet 语义库，其中每个 facelet 标记代表一个特定的面部语义。此 SoundBank 不包含空间信息，因此可以在运动变形期间补偿任何不可见或被遮挡的面部区域。然后，Facelet 补偿模块通过学习面部语义和 Facelet Bank 之间的关联矩阵，在最初扭曲的特征中填充 Facelet 标记。这种方法可以精确补偿遮挡和姿势变化，从而提高生成视频的保真度。广泛的实验表明，我们的方法获得了最先进的结果，保留了源身份，保持了细粒度的面部细节，并以非常高的准确性捕捉了细微的面部表情。

ID-Sculpt: ID-aware 3D Head Generation from Single In-the-wild Portrait Image

虽然最近的工作在一次性 3D 常见对象生成方面取得了巨大成功，但从单个图像生成高质量和保真度的 3D 头部仍然是一个巨大的挑战。以前基于文本的 3D 头部生成方法受到文本描述的限制，而基于图像的方法难以生成高质量的头部几何形状。为了解决这个具有挑战性的问题，我们提出了一种新的框架 ID-Sculpt，以生成高质量的 3D 头部，同时保留其身份。我们的工作将肖像图像的身份信息分为三个部分：1）几何初始化，2）几何雕刻，以及 3）纹理生成阶段。给定一张参考人像图像，我们首先将身份特征与文本特征对齐，实现 ID 感知引导增强，其中包含代表人脸信息的控制信号。然后，我们使用磁量映射、肖像图像的 ID 特征和预先训练的文本到法线/深度扩散模型来生成 ID 感知几何监督，并采用 3D-GAN 反转来生成 ID 感知几何初始化。此外，由于能够将身份信息注入 3D 头部生成中，我们使用 ID 感知指导来计算用于几何雕刻的 ID 感知分数蒸馏（ISD）。对于纹理生成，我们采用 ID Consistent Texture Inpainting and Refinement，它逐步扩展纹理修复的视图，以获得初始化的 UV 纹理贴图。然后，我们使用 ID 感知指南为有噪声的多视图图像提供图像级监督，以获得精细的纹理映射。大量实验表明，我们可以从单个野外肖像图像中生成具有精确几何形状和纹理的高质量 3D 头部。

FlexiTex: Enhancing Texture Generation via Visual Guidance

最近的纹理生成方法取得了令人印象深刻的结果，因为它们利用了强大的生成先验，来自大规模文本到图像扩散模型。但是，抽象文本提示在提供全局纹理或形状信息方面受到限制，这会导致纹理生成方法产生模糊或不一致的图案。为了解决这个问题，我们推出了 FlexiTex，通过视觉引导嵌入丰富的信息，以生成高质量的纹理。FlexiTex 的核心是视觉引导增强模块，它整合了来自视觉引导的更具体的信息，以减少文本提示中的歧义并保留高频细节。为了进一步增强视觉引导，我们引入了一个方向感知自适应模块，该模块根据不同的相机姿势自动设计方向提示，避免了 Janus 问题并保持语义全局一致性。得益于视觉引导，FlexiTex 产生了定量和定性上合理的结果，展示了它为实际应用推进纹理生成的潜力。

DEEPTalk: Dynamic Emotion Embedding for Probabilistic Speech-Driven 3D Face Animation

语音驱动的 3D 面部动画因其广泛的应用而引起了很多关注。尽管最近在实现逼真的嘴唇运动方面取得了进展，但目前的方法无法捕捉到通过语音传达的细微情感底色，并产生单调的面部运动。这些限制会导致生硬和重复的面部动画，从而降低用户参与度并阻碍其适用性。为了应对这些挑战，我们引入了 DEEPTalk，这是一种新颖的方法，可以直接从语音输入生成多样化且情感丰富的 3D 面部表情。为了实现这一目标，我们首先训练 DEE （Dynamic Emotion Embedding），它采用概率对比学习为语音和面部运动打造一个联合情感嵌入空间。这个概率框架捕捉了从语音和面部动作中解释情绪的不确定性，从而能够从其多面空间中推导出情感向量。此外，为了产生动态的面部运动，我们在克服 VAE 和 VQ-VAE 的局限性之前，将 TH-VQVAE （Temporal Hierarchical VQ-VAE）设计为一种富有表现力和稳健的运动。利用这些强大的先验，我们开发了 DEEPTalk，这是一个会说话的头部生成器，它可以非自回归地预测码本索引以创建动态的面部运动，并结合了一种新的情绪一致性损失。对各种数据集的广泛实验表明，我们的方法在创建多样化、情感表达丰富的谈话面孔方面的有效性，这些面孔保持准确的口型同步。我们的项目页面可在 https://whwjdqls.github.io/deeptalk.github.io/ 上找到。

VQTalker: Towards Multilingual Talking Avatars Through Facial Motion Tokenization

我们介绍了 VQTalker，这是一个基于向量量化的框架，用于多语言说话头像生成，解决了不同语言之间唇形同步和自然运动的挑战。我们的方法基于语音原理，即人类语音由一组有限的不同声音单位（音素）和相应的视觉发音（发音嘴型）组成，它们通常在语言中具有共同点。我们介绍了一种基于组残差有限标量量化（GRFSQ）的面部运动分词器，它创建了面部特征的离散表示。这种方法可以全面捕捉面部运动，同时提高对多种语言的泛化能力，即使训练数据有限。基于这种量化表示，我们实现了一个从粗到细的运动生成过程，逐步细化面部动画。大量实验表明，VQTalker 在视频驱动和语音驱动场景中都实现了最先进的性能，尤其是在多语言环境中。值得注意的是，我们的方法在 512 × 512 像素的分辨率下实现了高质量的结果，同时保持了大约 11 kbps 的较低比特率。我们的工作为跨语言的说话面孔生成开辟了新的可能性。

CtrlAvatar: Controllable Avatars Generation via Disentangled Invertible Networks

随着虚拟体验的普及，对逼真、个性化和可动画化的人类化身的需求也在增加。依赖固定模板的传统方法通常会产生成本高昂的头像，这些头像缺乏表现力和真实感。为了克服这些挑战，我们引入了通过解纠缠的可逆网络（CtrlAvatar）生成可控头像，CtrlAvatar 是一个用于生成逼真且可自定义头像的实时框架。CtrlAvatar 使用解缠的可逆网络将变形过程分为隐式体几何体和显式纹理组件。这种方法消除了重复占用重建的需要，从而实现了详细和连贯的动画。Body Geometry 组件确保解剖学的准确性，而纹理组件允许复杂、无伪影的服装定制。这种架构确保了身体运动和表面细节之间的平滑整合。通过优化与头像的初始线性混合蒙皮顶点的位置变化偏移量的变换，CtrlAvatar 实现了灵活、自然的变形，以适应各种场景。大量实验表明，CtrlAvatar 在质量、多样性、可控性和成本效益方面优于其他方法，标志着 Avatar 生成的重大进步。

3D²-Actor: Learning Pose-Conditioned 3D-Aware Denoiser for Realistic Gaussian Avatar Modeling

神经隐式表示和可微渲染的进步显著提高了从稀疏多视图 RGB 视频中学习可动画 3D 头像的能力。然而，当前将观察空间映射到典型空间的方法在捕获与姿势相关的细节和泛化到新姿势方面经常面临挑战。虽然扩散模型在 2D 图像生成中展示了卓越的零镜头功能，但它们从 2D 输入创建可动画 3D 头像的潜力仍未得到充分开发。在这项工作中，我们介绍了 3D²-Actor，这是一种新颖的方法，具有姿势条件的 3D 感知人体建模管道，集成了迭代 2D 降噪和 3D 校正步骤。2D 降噪器在姿势提示的引导下，生成详细的多视图图像，这些图像提供了高保真 3D 重建和姿势渲染所需的丰富功能集。作为补充，我们基于高斯的 3D 整流器通过两阶段投影策略和新颖的局部坐标表示来渲染具有增强 3D 一致性的图像。此外，我们提出了一种创新的采样策略，以确保视频合成中跨帧的平滑时间连续性。我们的方法有效地解决了传统数值解决方案在处理病态映射、生成逼真且可动画化的 3D 人类头像方面的局限性。实验结果表明，3D²-Actor 在高保真头像建模方面表现出色，并且可以稳健地泛化到新颖的姿势。

查看全文

http://www.xdnf.cn/news/4336.html