当前位置：首页 > news >正文

EchoMimic 阿里开源数字人项目的复现过程

news 2025/7/3 15:39:24

EchoMimic 是一个由阿里巴巴蚂蚁集团开发的开源AI 数字人项目，通过可编辑地标调节实现逼真的音频驱动肖像动画，它能够将静态图像转化为具有动态语音和表情的数字人像。

今天咱们来复现下，看看有哪些坑，再看看数字人效果如何。

先来看下本地环境，跑起来项目后会有如下输出。

1、clone代码

  git clone https://github.com/antgroup/echomimic_v2  cd echomimic_v2

2、conda创建环境。首先要安装conda,后台回复"conda"可获取Ubuntu安装包，直接安装即可。

  conda create -n echomimic python=3.10  conda activate echomimic

3、开始安装环境，根据自己实际的cuda版本安装，附pytorch地址：https://pytorch.ac.cn/get-started/previous-versions/。我的cuda版本是12.4

  pip install pip -U  pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124  pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124  pip install -r requirements.txt  pip install --no-deps facenet_pytorch==2.6.0

整个过程在安装requirements.txt时出点问题，因为当时安装不上clip了，我就先把这句注释了，手动下载，传导服务器上面安装了下。

安装整个过程还比较顺利。

4、下载ffmpeg-static

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

5、整个安装过程结束了就，我就试着运行了下

python app.py

毫无意外报错了，如图：

这是gradio版本太低了，需要升级下

pip install --upgrade gradio

6、升级好后接着再跑下试试

打开如图：

用自带的形象试试。点击生成视频报错了。

没有模型文件，哦忘记下载模型文件了。下载模型文件，按照下图目录放进去。

然后再启动试下。

7、点击生成视频，等待了七分钟左右终于成功了。显存使用情况如下：

生成视频效果还是很不错的。

8、这既然支持自定义数字人，我自己上传个人物图像试试。

效果不是很理想，有时候没上传带手的人物形象，但是还生成了个手，有点不忍直视。我就不贴视频了。

这就是我的整个的搭建的过程。后台回复“EchoMimic”获取项目代码，模型文件，ffmpeg-static下载链接

大家在搭建或者使用的过程中有遇到什么问题，欢迎大家关注留言。大家一起来讨论学习。

查看全文

http://www.xdnf.cn/news/237727.html

datax导出hdfs数据到关系型数据库空值处理

Redis基础系列-集群模式

基于站点观测的中国1km土壤湿度日尺度数据集（2000-2022）

深入探索ChatClient：简化AI模型交互的强大工具

关于现代哲学的哲学理论的探索

layui轮播图根据设备宽度图片等比例，高度自适应

在柯希霍夫积分法偏移成像中，反假频处理

【黑马JavaWeb+AI知识梳理】后端Web基础01 - Maven

ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

【补题】Codeforces Round 664 (Div. 1) A. Boboniu Chats with Du

西门子PLC S7-1200 的组态软件控制

DeepSeek V2：引入MLA机制与指令对齐

ZLG嵌入式笔记 | 移动硬盘和虚拟机的那些事儿

深度卷积模型：案例研究

【iPaaS融合集成平台-混合云时代，iPaaS正在成为企业集成的“中央枢纽”】

数据访存性能影响因素：虚拟内存管理和TLB的概念和工作流程

【Java】一篇讲透Java中的集合类

多智能体协同作战：MagenticOne如何指挥一支AI团队

什么是工业互联网平台？

kbuild system学习

浮阀塔精馏分离乙醇-水溶液工艺设计研究

从实列中学习linux shell4: shell 脚本中 $0 $1 $2 $3 ＞＞以及 awk 都是干啥的？

FastAPI系列12：使用JWT 登录认证和RBAC 权限控制

前端笔记-Element-Plus

python安装和环境配置，开发方法简要步骤。

Android 自带的分享功能分享到三方应用

ProfiNet转CAN协议转换网关数据交互实现：工业自动化异构网络无缝对接

[250429] 免费！DeepSeek-R1T-Chimera 合并 R1 和 V3，在 OpenRouter 上可用

2025华东杯ABC题赛题已出速拿

相关文章：