当前位置：首页 > news >正文

无限时长视频生成新突破！复旦联合微软、腾讯混元推出StableAvatar，仅需1张照片+1段音频实现真人说话视频

news 2025/9/5 14:00:50

一、项目介绍

StableAvatar 是复旦大学团队联合微软亚洲研究院、西安交通大学及腾讯混元共同研发的 AI 技术，于2025年8月首次实现无限长度真人说话视频生成，解决了传统技术生成长视频时出现的面部扭曲、身体变形等问题。

核心技术

时间步感知音频适配器是StableAvatar的核心创新，通过将音频信息转换为视频生成模型可理解的语言，并确保每一帧画面与对应时刻的音频完美匹配，从而支持无限时长视频生成。

应用前景

该技术可显著降低影视制作、虚拟助手、在线教育等领域的视频制作成本，提升内容创作效率。例如，用户仅需提供一张照片和一段录音，即可生成真人级说话视频。

二、使用说明

1.在GPU实例界面中选择创建实例星海智算-GPU算力云平台

2.选择好所在区域、所需配置、计费方式后在镜像市场搜索StableAvatar镜像

3.实例运行后，等待两到三分钟点击应用服务按钮即可

4.有StableAvatar、音频提取、人声分离三种模式可供选取，由于音频提取和人声分离较为简单，这里演示StableAvatar模式，选择相应语言，并选择相应模型，上传完图片和音频之后，调整提示词和参数，点击开始生成即可。

5.生成结果：实现一张图、一段音频，生成数字人。

查看全文

http://www.xdnf.cn/news/1459027.html

hutool的EnumUtil工具类实践【持续更新】

Pycharm终端pip install的包都在C:\Users\\AppData\Roaming\Python\解决办法

手写Spring框架

前端跨域终极指南：3 种优雅解决方案 + 可运行 Demo

解密注意力机制：为何它能在Transformer中实现高效并行计算？

STM32G4 速度环开环，电流环闭环 IF模式建模

如何在Linux上部署1Panel面板并远程访问内网Web端管理界面

Kafka 开启 SASL_PLAINTEXT 双监听器认证（内网/外网）

如何减少文档冗余和重复劳动

vite_react 插件 find_code 最终版本

MVCC是如何工作的？

bash自带的切片操作

解锁“桐果云”的全链路能力矩阵，技术人必看的企业级数据应用方案

阿里云轻量应用服务器部署WordPress与配置SSL 证书

英飞凌ASIL-D级无刷电机驱动芯片TLE9189守护汽车安全

第三方网站测试:WEB安全测试中DOM型XSS漏洞的检测

[Windows] PDF工具箱 PDF24 Creator 11.28.0

为什么ApiFox的分页查询的返回Vo的数据没有全部展示？只展示了返回有数据的？没有数据的为什么不展示？

N个代码片段之封装继承与多态

Docker（①安装）

视频小浮窗Pip的实现

【RNN-LSTM-GRU】第四篇 GRU门控循环单元：LSTM的高效替代者与实战指南

力扣14:最长公共前缀

【系统架构设计（14）】项目管理下：软件质量与配置管理：构建可靠软件的基础保障

出海马来西亚，九识智能携手ALS共同启动首个自动驾驶物流车公开道路试运行

一、项目介绍

核心技术

应用前景

二、使用说明

相关文章：