当前位置: 首页 > ds >正文

阿里HumanAIGC 团队开源实时数字人项目ChatAnyone

简介

ChatAnyone 是一个由 HumanAIGC 团队开发的开源项目,专注于从单张肖像照片和音频生成实时风格化的上半身动画视频。该项目发布于 2025 年,论文《ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model》由 Jinwei Qi 等人在 ArXiv 上发表,进一步阐述了其技术细节。项目背景源于虚拟主播、数字人和实时互动应用的需求增长,技术架构基于分层运动扩散模型,支持高效的实时生成。
在这里插入图片描述

项目背景

开发背景与目标

在这里插入图片描述

  • 行业趋势:近年来,虚拟主播、数字人和在线教育领域的需求快速增长,用户对沉浸式体验的需求日益增加。传统的静态头像或简单语音交互已无法满足需求,实时生成动态、逼真的视频成为行业趋势。

  • 技术挑战:ChatAnyone 的目标是解决实时视频生成的技术难题,包括口型同步、表情自然化、风格化输出以及双人互动场景的支持。研究显示,其在 RTX 4090 上实现了 30fps 的生成速度,分辨率最高支持 512×768,满足了实时应用的要求 [Post ID: 0].

  • 应用场景:项目支持从单张照片生成上半身动画,适用于虚拟主播直播、播客视频生成、在线教育互动等场景。例如,生成双主持人播客视频,降低内容创作者的制作成本。

团队背景

HumanAIGC 是阿里巴巴集团旗下同易(Tongyi)团队的一部分,专注于以人为中心的生成式 AI 技术开发。该团队在生成式 AI 领域有多项研究成果,包括实时肖像视频生成、虚拟试穿和人物动画等。

尽管 HumanAIGC 被宣传为开源项目,但部分用户对其开源承诺有所质疑。例如,AnimateAnyone 和 Emote Portrait Alive 等相关项目曾被提及为开源,但最终未完全开放源代码,引发了社区讨论 [Web ID: 22]. 这种现象可能反映了大厂在技术创新与商业利益之间的平衡考量。

项目亮点

  • 实时生成:在 RTX 4090 上实现 30fps 的生成速度,分辨率最高支持 512×768,适合消费级硬件。

  • 风格化支持:支持卡通风格等多种输出风格,增强视频的可定制性。

  • 双人互动:支持生成双主持人播客视频,适用于多人协作场景。

  • 音频驱动:结合语音特征提取,实现口型同步和表情驱动,增强视频的真实感。

技术架构

在这里插入图片描述

ChatAnyone 的技术架构基于 Hierarchical Motion Diffusion Model(分层运动扩散模型),通过分解视频生成过程,实现高效的实时渲染。以下是其技术架构的详细分析:

核心技术:分层运动扩散模型

  • 分层设计:将视频生成分解为多个层次,包括整体姿态、面部表情和手势动作。每个层次使用独立的扩散模型进行生成,减少了计算复杂度,同时提升了生成效果的自然度。

  • 运动建模:通过分层模型,分别处理不同层次的运动(如头部、手部、身体),确保生成的视频具有流畅的动作和自然的过渡。

  • 扩散模型:利用扩散模型(Diffusion Models)的强大生成能力,结合条件控制(如音频输入)实现音频驱动的视频生成。
    在这里插入图片描述

音频处理与驱动

  • 语音特征提取:从输入音频中提取语音特征(如梅尔频谱),用于驱动唇部动作和面部表情。

  • 口型同步:通过音频特征控制唇部运动,确保生成的视频与音频同步。

  • 表情生成:结合音频情感信息,生成自然的表情变化,增强视频的真实感。
    在这里插入图片描述

图像生成与风格化

  • 肖像生成:从单张照片生成动态肖像,支持风格化输出(如卡通风格)。

  • 分辨率支持:最高支持 512×768 的分辨率,适用于高清视频输出。

实时性能优化

  • 硬件加速:项目在 RTX 4090 上实现 30fps 的实时生成,依赖 GPU 加速。

  • 模型优化:通过分层设计和高效的扩散模型,减少了计算延迟,支持实时应用。

在这里插入图片描述

性能对比

详见技术报告

在这里插入图片描述

看看效果

相关文献

官方地址:https://humanaigc.github.io/chat-anyone/
技术报告:https://arxiv.org/pdf/2503.21144

http://www.xdnf.cn/news/765.html

相关文章:

  • 正则化和优化策略
  • 体育用品有哪些·棒球1号位
  • 脚本中**通配符用法解析
  • 【CentOs】构建云服务器部署环境
  • 基数平衡多伯努利滤波器(CB-MBM):基于约束优化的多目标数量与存在概率联合估计方法
  • 在Fortran和Python之间共享变量
  • 一个Nuxt3 SSR服务端渲染简洁好用的开源个人博客系统 交互设计体验简单 腾讯markdown编辑器 支持drawio画图
  • STM32开发过程中碰到的问题总结 - 4
  • [Windows] 星光桌面精灵 V0.5
  • OSI七层模型
  • 开源项目FastAPI-MCP:一键API转换MCP服务
  • 信创时代编程开发语言选择指南:国产替代背景下的技术路径与实践建议
  • MIT6.S081-lab4前置
  • ROS机器人开发实践->机器人建模与仿真
  • LeetCode每日一题4.20
  • SSRF学习
  • 【Agent】AI智能体评测基座AgentCLUE-General
  • 21.Chromium指纹浏览器开发教程之触摸屏点指纹定制
  • RHCSA Linux 系统文件内容显示2
  • 云梦数字化系统 介绍
  • 2025 第十六届蓝桥杯Java B组
  • 信号的概念
  • 《软件设计师》复习笔记(2.4)——输入输出、中断、总线、可靠性
  • TensorFlow介绍
  • 漫游git rebase + 浅谈git checkout和git branch -f的分支命令
  • Linux内核哈希表学习笔记
  • Vue3 + TypeScript + Pinia 搭建一套企业级的开发脚手架
  • 数字化时代下的工业物联网智能体开发平台策略
  • Vue3中provide和inject数据修改规则
  • 代码随想录训练营第36天 ||1049. 最后一块石头的重量 II 494. 目标和 474. 一和零