当前位置: 首页 > news >正文

EchoMimic 阿里开源数字人项目的复现过程

EchoMimic 是一个由阿里巴巴蚂蚁集团开发的开源AI 数字人项目,通过可编辑地标调节实现逼真的音频驱动肖像动画,它能够将静态图像转化为具有动态语音和表情的数字人像。

今天咱们来复现下,看看有哪些坑,再看看数字人效果如何。

先来看下本地环境,跑起来项目后会有如下输出。

图片

1、clone代码

      git clone https://github.com/antgroup/echomimic_v2  cd echomimic_v2

    2、conda创建环境。首先要安装conda,后台回复"conda"可获取Ubuntu安装包,直接安装即可。

        conda create -n echomimic python=3.10  conda activate echomimic

      3、开始安装环境,根据自己实际的cuda版本安装,附pytorch地址:https://pytorch.ac.cn/get-started/previous-versions/。我的cuda版本是12.4

          pip install pip -U  pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124  pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124  pip install -r requirements.txt  pip install --no-deps facenet_pytorch==2.6.0

        整个过程在安装requirements.txt时出点问题,因为当时安装不上clip了,我就先把这句注释了,手动下载,传导服务器上面安装了下。

        图片

        图片

        安装整个过程还比较顺利。

        图片

        4、下载ffmpeg-static

          export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

          5、整个安装过程结束了就,我就试着运行了下

            python app.py

            毫无意外报错了,如图:

            图片

            这是gradio版本太低了,需要升级下

              pip install --upgrade gradio

              6、升级好后接着再跑下试试

              图片

              打开如图:

              图片

              用自带的形象试试。点击生成视频报错了。

              图片

              没有模型文件,哦忘记下载模型文件了。下载模型文件,按照下图目录放进去。

              图片

              然后再启动试下。

              7、点击生成视频,等待了七分钟左右终于成功了。显存使用情况如下:

              图片

              生成视频效果还是很不错的。

              图片

              8、这既然支持自定义数字人,我自己上传个人物图像试试。

              效果不是很理想,有时候没上传带手的人物形象,但是还生成了个手,有点不忍直视。我就不贴视频了。

              这就是我的整个的搭建的过程。后台回复“EchoMimic”获取项目代码,模型文件,ffmpeg-static下载链接

              大家在搭建或者使用的过程中有遇到什么问题,欢迎大家关注留言。大家一起来讨论学习。

              http://www.xdnf.cn/news/237727.html

              相关文章:

            • datax导出hdfs数据到关系型数据库空值处理
            • Redis基础系列-集群模式
            • 基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)
            • 深入探索ChatClient:简化AI模型交互的强大工具
            • 关于现代哲学的哲学理论的探索
            • layui轮播图根据设备宽度图片等比例,高度自适应
            • 在柯希霍夫积分法偏移成像中,反假频处理
            • 【黑马JavaWeb+AI知识梳理】后端Web基础01 - Maven
            • ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning
            • 【补题】Codeforces Round 664 (Div. 1) A. Boboniu Chats with Du
            • 西门子PLC S7-1200 的组态软件控制
            • DeepSeek V2:引入MLA机制与指令对齐
            • ZLG嵌入式笔记 | 移动硬盘和虚拟机的那些事儿
            • 深度卷积模型:案例研究
            • 【iPaaS融合集成平台-混合云时代,iPaaS正在成为企业集成的“中央枢纽”】
            • 数据访存性能影响因素:虚拟内存管理和TLB的概念和工作流程
            • 【Java】一篇讲透Java中的集合类
            • 多智能体协同作战:MagenticOne如何指挥一支AI团队
            • 什么是工业互联网平台?
            • kbuild system学习
            • 浮阀塔精馏分离乙醇-水溶液工艺设计研究
            • 从实列中学习linux shell4: shell 脚本中 $0 $1 $2 $3 >> 以及 awk 都是干啥的?
            • FastAPI系列12:使用JWT 登录认证和RBAC 权限控制
            • 前端笔记-Element-Plus
            • python安装和环境配置,开发方法简要步骤。
            • Android 自带的分享功能分享到三方应用
            • ProfiNet转CAN协议转换网关数据交互实现:工业自动化异构网络无缝对接
            • [250429] 免费!DeepSeek-R1T-Chimera 合并 R1 和 V3, 在 OpenRouter 上可用
            • 2025华东杯ABC题赛题已出速拿
            • ​​智能制造中的预测性维护:基于深度学习的设备故障预测​​