当前位置: 首页 > news >正文

无限时长视频生成新突破!复旦联合微软、腾讯混元推出StableAvatar,仅需1张照片+1段音频实现真人说话视频

一、项目介绍

StableAvatar 是 复旦大学 团队联合 微软亚洲研究院 、 西安交通大学 及 腾讯混元 共同研发的 AI 技术,于2025年8月首次实现无限长度真人说话视频生成,解决了传统技术生成长视频时出现的面部扭曲、身体变形等问题。

核心技术

时间步感知音频适配器是StableAvatar的核心创新,通过将音频信息转换为视频生成模型可理解的语言,并确保每一帧画面与对应时刻的音频完美匹配,从而支持无限时长视频生成。

应用前景

该技术可显著降低影视制作、虚拟助手、在线教育等领域的视频制作成本,提升内容创作效率。例如,用户仅需提供一张照片和一段录音,即可生成真人级说话视频。

二、使用说明

1.在GPU实例界面中选择创建实例星海智算-GPU算力云平台

2.选择好所在区域、所需配置、计费方式后在镜像市场搜索StableAvatar镜像

3.实例运行后,等待两到三分钟点击应用服务按钮即可

4.有StableAvatar、音频提取、人声分离三种模式可供选取,由于音频提取和人声分离较为简单,这里演示StableAvatar模式,选择相应语言,并选择相应模型,上传完图片和音频之后,调整提示词和参数,点击开始生成即可。

5.生成结果:实现一张图、一段音频,生成数字人。

http://www.xdnf.cn/news/1459027.html

相关文章:

  • hutool的EnumUtil工具类实践【持续更新】
  • 揭秘23种设计模式的艺术与技巧之行为型
  • 美联储计划召开稳定币和代币化创新会议
  • 大数据框架Doris全面解析
  • 期权平仓后权利金去哪了?
  • 基于STM32的智能家居语音控制系统设计
  • Pycharm终端pip install的包都在C:\Users\\AppData\Roaming\Python\解决办法
  • 手写Spring框架
  • 前端跨域终极指南:3 种优雅解决方案 + 可运行 Demo
  • 解密注意力机制:为何它能在Transformer中实现高效并行计算?
  • STM32G4 速度环开环,电流环闭环 IF模式建模
  • 如何在Linux上部署1Panel面板并远程访问内网Web端管理界面
  • Kafka 开启 SASL_PLAINTEXT 双监听器认证(内网/外网)
  • 如何减少文档冗余和重复劳动
  • vite_react 插件 find_code 最终版本
  • MVCC是如何工作的?
  • bash自带的切片操作
  • 解锁“桐果云”的全链路能力矩阵,技术人必看的企业级数据应用方案
  • 阿里云轻量应用服务器部署WordPress与配置SSL 证书
  • 英飞凌ASIL-D级无刷电机驱动芯片TLE9189守护汽车安全
  • 第三方网站测试:WEB安全测试中DOM型XSS漏洞的检测
  • [Windows] PDF工具箱 PDF24 Creator 11.28.0
  • 为什么ApiFox的分页查询的返回Vo的数据没有全部展示? 只展示了返回有数据的?没有数据的为什么不展示?
  • N个代码片段之封装继承与多态
  • Docker(①安装)
  • 视频小浮窗Pip的实现
  • 【RNN-LSTM-GRU】第四篇 GRU门控循环单元:LSTM的高效替代者与实战指南
  • 力扣14:最长公共前缀
  • 【系统架构设计(14)】项目管理下:软件质量与配置管理:构建可靠软件的基础保障
  • 出海马来西亚,九识智能携手ALS共同启动首个自动驾驶物流车公开道路试运行