当前位置: 首页 > news >正文

腾讯浑元最新技术:具有表征对齐的多模态扩散,用于高保真拟音音频生成

2025年8月28日,腾讯混元团队宣布开源端到端视频音效生成模型HunyuanVideo-Foley。该模型能够依据输入的视频内容及文字描述,自动生成与画面高度同步的高品质音效,有效解决了AI生成视频缺乏同步音频的沉浸感问题。

此模型的开源意味着视频内容创作者(包括短视频创作者、电影制作人、广告创意人员和游戏开发者)能够更方便地获得专业级别的音频配音能力,真正实现“看懂画面、读懂文字、配准声音

基于表征对齐的多模态扩散模型实现高保真拟音音频生成

作者:腾讯混元,浙江大学 ,南京航空航天大学

项目网站 模型下载 演示空间 代码仓库 论文链接

摘要

当前视频生成技术虽能产生视觉上逼真的内容,但缺乏同步音频严重影响了沉浸感。为解决视频到音频(V2A)生成中的关键挑战,包括多模态数据稀缺、模态不平衡以及现有V2A方法中音频质量有限等问题,我们提出了HunyuanVideo-Foley,一个端到端的文本-视频到音频(TV2A)框架,能够合成与视觉动态和语义语境精确对齐的高保真音频。我们的方法包含三项核心创新:(1)通过自动化标注构建100k小时多模态数据集的可扩展数据流水线;(2)通过双流时序融合和跨模态语义注入解决模态竞争的新型多模态扩散变换器;(3)使用自监督音频特征进行表征对齐(REPA)来指导潜在扩散训练,有效提高生成稳定性和音频质量。综合评估表明,HunyuanVideo-Foley在音频保真度、视觉对齐和分布匹配方面实现了新的最先进性能。

数据流水线

HunyuanVideo-Foley框架整体架构

筛选视频-音频数据的数据流水线。工作流程展示了从原始视频数据库到筛选后的视频-音频数据库的处理步骤。

方法概述

HunyuanVideo-Foley框架整体架构

HunyuanVideo-Foley模型架构概览。 所提出的模型通过混合框架整合编码后的文本(CLAP)、视觉(SigLIP-2)和音频(DAC-VAE)输入,该框架包含多模态变换器块后接单模态变换器块。混合变换器块通过同步特征和时间步嵌入进行调制和门控。使用预训练的ATST-Frame计算来自单模态变换器块的潜在表征的REPA损失。生成的音频潜在表示通过DAC-VAE解码器解码为音频波形。

实验结果

不同方法的雷达图对比

视频到音频评估的雷达图。包含在三个评估集上的结果:Kling-Audio-Eval、VGGSound-Test和MovieGen-Audio-Bench,表明HunyuanVideo-Foley实现了全面优势。

Kling-Audio-Eval客观评估结果

方法FDPaNNs↓FDPaSST↓KL↓IS↑PQ↑PC↓CE↑CU↑IB↑DeSync↓CLAP↑
FoleyCrafter22.30322.632.477.086.052.913.285.440.221.230.22
V-AURA33.15474.563.245.805.693.983.134.830.250.860.13
Frieren16.86293.572.957.325.722.552.885.100.210.860.16
MMAudio9.01205.852.179.595.942.913.305.390.300.560.27
ThinkSound9.92228.682.396.865.783.233.125.110.220.670.22
HunyuanVideo-Foley ( ours)6.07202.121.898.306.122.763.225.530.380.540.24

VGGSound-Test客观评估结果

方法FDPaNNs↓FDPaSST↓KL↓IS↑PQ↑PC↓CE↑CU↑IB↑DeSync↓CLAP↑
FoleyCrafter20.65171.432.2614.586.332.873.605.740.261.220.19
V-AURA18.91291.722.408.585.704.193.494.870.270.720.12
Frieren11.6983.172.7512.235.872.993.545.320.230.850.11
MMAudio7.42116.921.7721.006.183.174.035.610.330.470.25
ThinkSound8.4667.181.9011.115.983.613.815.330.240.570.16
HunyuanVideo-Foley ( ours)11.34145.222.1416.146.402.783.995.790.360.530.24

MovieGen-Audio-Bench主客观评估结果

方法PQ↑PC↓CE↑CU↑IB↑DeSync↓CLAP↑MOS-Q↑MOS-S↑MOS-T↑
FoleyCrafter6.272.723.345.680.171.290.143.36±0.783.54±0.883.46±0.95
V-AURA5.824.303.635.110.231.380.142.55±0.972.60±1.202.70±1.37
Frieren5.712.813.475.310.181.390.162.92±0.952.76±1.202.94±1.26
MMAudio6.172.843.595.620.270.800.353.58±0.843.63±1.003.47±1.03
ThinkSound6.043.733.815.590.180.910.203.20±0.973.01±1.043.02±1.08
HunyuanVideo-Foley ( ours)6.592.743.886.130.350.740.334.14±0.684.12±0.774.15±0.75

实验结果表明,HunyuanVideo-Foley在多个评估数据集上均取得了优越的性能,在音频质量、时序对齐和跨模态一致性等关键指标上 consistently 优于基线方法。

结果与对比

在这里插入图片描述

我们的HunyuanVideo-Foley框架相比现有方法展现出卓越性能。以下是不同方法生成的视频-音频对比:更多视频例子:https://szczesnys.github.io/hunyuanvideo-foley/
在这里插入图片描述
在这里插入图片描述

应用场景:赋能多元行业创作

HunyuanVideo-Foley的视频音效生成能力正为多元行业带来高效便捷的解决方案:

  • 短视频创作:能自动适配搞笑段子、生活vlog、AI视频等内容的场景氛围,一键生成贴合画面节奏的背景音效,让创意表达更具感染力。

  • 电影制作:助力电影制作团队突破传统音效制作的周期与成本瓶颈,快速构建环境音、拟音等细节丰富的声效场景,实现降本提效的后期制作升级。

  • 广告创意:为汽车广告自动合成引擎启动、加速行驶等音效,强化产品质感与品牌印象。

  • 游戏开发:实时生成森林鸟鸣、雨滴落地等环境音效,增强玩家沉浸式体验。

  • 在线教育:为科普视频加入火山喷发、雷电交加等生动音效,激发学习兴趣与记忆效果

HunyuanVideo-Foley的发布标志着AI视频生成从“只能看”迈向“既能看又能听”的新阶段。其卓越的多模态理解能力、专业级的音频保真度以及强大的泛化性能,使其成为视频内容创作领域的革命性工具。

http://www.xdnf.cn/news/1406935.html

相关文章:

  • 【嵌入式DIY实例】-空中鼠标
  • LeetCode算法日记 - Day 27: 计算右侧小于当前元素的个数、翻转对
  • 高校心理教育辅导系统的设计与实现|基于SpringBoot高校心理教育辅导系统的设计与实现
  • USB虚拟化应用5:VirtualFIDO2 虚拟硬件安全密钥,智能卡,yubico,支持X,FB,GITHUB等各种网站双重认证,让你的账户登录绝对安全
  • 在集群级别应用 Pod 安全标准
  • opencv 梯度提取
  • 数据化管理是什么意思?企业该如何进行数据化管理
  • 《SVA断言系统学习之路》【01】即时断言概览
  • 北京博乐科技有限公司2025届程序技术类笔试题
  • 性能测试工具-SkyWalking
  • 元宇宙与旅游产业:虚实融合的文旅新体验
  • Python毕业设计推荐:基于Django+MySQL的养老社区服务管理系统
  • 从 WPF 到 Avalonia 的迁移系列实战篇4:控件模板与 TemplatedControl
  • UniApp 基础开发第一步:HBuilderX 安装与环境配置
  • 【AI智能体技术】如何学习多智能体系统知识并实现SOTA算法?
  • SDL3.0 学习随笔:其一
  • 自底向上了解CPU的运算
  • 嵌入式常见架构
  • 【MYSQL】从混乱到清晰:联合查询帮你打通数据孤岛
  • 算法:插入排序
  • 公益免费二级域名
  • 解锁Tensor Core性能:深入探索CUDA Warp矩阵操作
  • Junior Engineer浅谈CAS
  • 【百度】C++开发(25届提前批 一面)面经
  • 时序数据库
  • GitHub 热榜项目 - 日榜(2025-08-31)
  • 使用cursor claude sonnet4的一些感受
  • PY32F002不小心设置了SWD复用的恢复
  • Chrome++插件与GreenChrome:增强Chrome浏览器功能
  • Spring Boot 3.0 应用 HTTP 到 HTTPS 技术改造方案