无限时长视频生成新突破!复旦联合微软、腾讯混元推出StableAvatar,仅需1张照片+1段音频实现真人说话视频
一、项目介绍
StableAvatar 是 复旦大学 团队联合 微软亚洲研究院 、 西安交通大学 及 腾讯混元 共同研发的 AI 技术,于2025年8月首次实现无限长度真人说话视频生成,解决了传统技术生成长视频时出现的面部扭曲、身体变形等问题。
核心技术
时间步感知音频适配器是StableAvatar的核心创新,通过将音频信息转换为视频生成模型可理解的语言,并确保每一帧画面与对应时刻的音频完美匹配,从而支持无限时长视频生成。
应用前景
该技术可显著降低影视制作、虚拟助手、在线教育等领域的视频制作成本,提升内容创作效率。例如,用户仅需提供一张照片和一段录音,即可生成真人级说话视频。
二、使用说明
1.在GPU实例界面中选择创建实例星海智算-GPU算力云平台
2.选择好所在区域、所需配置、计费方式后在镜像市场搜索StableAvatar镜像
3.实例运行后,等待两到三分钟点击应用服务按钮即可
4.有StableAvatar、音频提取、人声分离三种模式可供选取,由于音频提取和人声分离较为简单,这里演示StableAvatar模式,选择相应语言,并选择相应模型,上传完图片和音频之后,调整提示词和参数,点击开始生成即可。
5.生成结果:实现一张图、一段音频,生成数字人。