当前位置: 首页 > backend >正文

阿里发布数字人模型echomimic_v3,在视频合成的基础上支持prompt输入~

项目背景

在这里插入图片描述

  1. 研究动机EchoMimicV3 的开发旨在解决现有大模型视频扩散模型(Large-Scale Video Diffusion Models, LVDM)在人体动画生成中的两大问题:
  • 高计算成本与慢推理速度:传统 LVDM 模型参数量庞大,导致训练和推理的计算开销高,难以在资源受限的场景中应用。
  • 多任务支持不足:现有模型通常针对单一任务(如唇部同步或文本到视频)设计,缺乏统一的框架来同时处理多种动画任务(如唇部同步、文本到视频、图像到视频等)。

EchoMimicV3 的目标是通过一个轻量级模型实现“更快、更高质量、更高泛化能力、统一多任务支持”的目标,灵感来源于奥林匹克格言“更快、更高、更强——共同努力”。它通过创新的训练策略和架构设计,在保持高效的同时,提供与大模型相当的性能。

  1. 项目发展历程EchoMimic 系列包括以下几个版本:
  • EchoMimicV1:专注于通过可编辑的地标条件实现逼真的音频驱动肖像动画,奠定了基础。
  • EchoMimicV2:扩展到半身动画,简化了生成流程并提升了动画的自然度。
  • EchoMimicV3:最新版本,统一了多模态(音频、图像、文本)和多任务(唇部同步、文本到视频、图像到视频等)的人体动画生成,参数量仅为1.3亿,显著提高了效率和通用性。

模型架构

在这里插入图片描述

EchoMimicV3 的核心是一个基于紧凑型视频扩散模型(Compact Video Diffusion Model, CVDM)的框架,通过以下三大创新设计克服了轻量级模型在质量、泛化和多任务支持上的局限性:

  1. Soup-of-Tasks(任务融合)
  • 设计理念:将多种动画任务(唇部同步、文本到视频、图像到视频、首末帧到视频)统一为时空重建问题,灵感来源于掩码自编码器(Masked Autoencoders, MAE)。具体而言:

    • 唇部同步被视为口部空间区域的重建。
    • 文本到视频(T2V)、图像到视频(I2V)、首末帧到视频(FLF2V)被视为中间时间帧的重建。
  • 实现方式:通过统一的掩码序列输入(0-1掩码与视频潜在表示拼接),将不同任务的输入格式标准化。模型采用“从难到易”的训练策略,先训练复杂任务(如 I2V/FLF2V)以充分利用预训练知识,再通过指数移动平均(EMA)逐步引入简单任务(如唇部同步),实现跨任务知识迁移,避免灾难性遗忘。

  1. Soup-of-Modals(模态融合)
  • 设计理念:通过“耦合-解耦-混合”工作流增强多模态处理能力,支持音频、图像和文本输入。
  • 实现细节:耦合:共享查询 MLP 将所有模态(音频、图像、文本)耦合。
    • 解耦:模态特定的交叉注意力模块为每种模态注入特定的键和值。
    • 混合:引入多模态时间步相位感知动态分配(Multi-Modal Timestep Phase-aware Dynamic Allocation, Multi-Modal PhDA)机制,根据时间步阶段动态调整模态权重。例如:
      • 文本条件在所有阶段保持一致重要性。
      • 图像条件在早期和中期时间步阶段影响较大。
      • 音频条件在初始阶段尤为重要。

通过线性组合融合模态专家分支,确保多模态输入的高效协同。

  1. 核心组件EchoMimicV3 的架构基于去噪 U-Net,集成了以下模块:
  • 去噪 U-Net:从 Stable Diffusion v1.5 架构衍生,包含三层注意力机制:

    • 参考注意力层:编码当前帧与参考图像的关系。
    • 音频注意力层:捕获视觉与音频的交互。
    • 时间注意力层:通过自注意力机制捕获连续帧之间的时间动态。
  • 参考 U-Net:编码参考图像,保持面部身份和背景一致性,避免无关信息干扰。

  • 音频编码器:基于预训练的 Wav2Vec 模型,提取音频特征并通过时间上下文连接相邻帧特征,增强唇部同步的真实性。

  • 地标编码器:将面部地标图像编码为潜在空间特征,与多帧潜在表示融合,提升解剖结构和运动的精确性。

  • 时间注意力层:通过重塑隐藏状态并沿时间轴应用自注意力,捕获帧间依赖关系,确保视频序列的时间一致性。

  • 空间损失:在像素空间中直接学习面部结构,结合 MSE 和 LPIPS 损失,并引入时间步感知函数减少大时间步的权重,提升细节捕捉能力。

  1. 新颖训练与推理策略Negative DPO-SFT 循环训练:
  • 提出负向直接偏好优化(Negative DPO),通过无配对的负样本拒绝不良分布,动态缓解空间不一致(如身份保持问题)和时间伪影(如颜色偏移)。该策略将负向 DPO 与监督微调(SFT)交织,简化传统 DPO 流程,同时保持高效性能。
  • 相位感知负增强 CFG(PNG):在推理阶段,通过在特定扩散时间步应用加权负提示,抑制不自然的动作和颜色不一致等问题。
  • 长视频 CFG:优化长视频生成(超过138帧),提升长时间序列的质量。

一些参数对比

在这里插入图片描述
在这里插入图片描述

看看效果

相关链接

项目地址:https://github.com/antgroup/echomimic_v3
官方地址:https://antgroup.github.io/ai/echomimic_v3/
模型地址:https://huggingface.co/BadToBest/EchoMimicV3
论文地址:https://arxiv.org/abs/2507.03905

http://www.xdnf.cn/news/17486.html

相关文章:

  • 机器学习 - Kaggle项目实践(1)Titanic
  • 人工智能-python-机器学习- 欠拟合与过拟合:岭回归与拉索回归的应用
  • 【安全发布】微软2025年07月漏洞通告
  • SharePlay确保最佳游戏体验
  • 基恩士 CA CNX10U 视觉连接器REPEATER CA CN or CV- C 日本原装进口
  • 数字IC后端层次化Hierarchical Flow子系统Sub-System模块 block partition和pin assignment细节盘点
  • istio如何采集method、url指标
  • 飞算JavaAI vs 传统开发:效率与质量的双重突破
  • conda一键配置python开发环境
  • CI/CD的持续集成和持续交付
  • 在 Rocky Linux 9.2 上使用 dnf 安装 Docker 全流程详解
  • PyCATIA深度解析:基于装配截面自动化创建参考几何平面群的专业方案
  • Redis一站式指南二:主从模式高效解决分布式系统“单点问题”
  • windows运维
  • opencv:图像轮廓检测与轮廓近似(附代码)
  • 部署一个免费开源的博客系统
  • Gin 框架错误处理机制详解
  • 【Tomcat】企业级web应用服务器
  • 如何培养自己工程化的能力(python项目)
  • (LeetCode 每日一题) 869. 重新排序得到 2 的幂 (哈希表+枚举)
  • 机器学习之K-means(K-均值)算法
  • Unity3D游戏中如何制作空气墙
  • actuary notes[2]
  • Spring Boot整合knife4j实战
  • BGP综合大实验
  • 152-基于CWT-CNN-BiGRU-Attention-SABO-LSSVM对滚动轴承的故障诊断
  • iceberg安装部署
  • java报错“ NoSuchMethodError:com.test.Service.doRoomList(Ljava/lang/String;)V解决方案
  • Text2SQL 自助式数据报表开发(Chat BI)
  • “骑行热”正当时,维乐Eden ANGEL坐垫守护舒适与健康