当前位置：首页 > news >正文

Audio Flamingo

news 2025/8/11 19:56:57

文章目录

[Audio Flamingo 3](https://research.nvidia.com/labs/adlr/AF3/) [2025.6]
- abstract
- method
- - AF-Whisper
  - LLM
  - streaming tts deocder
- data
- experiment
- result

Audio Flamingo 3 [2025.6]

abstract

可以处理speech/audio/music，多种音频形态的speech2speech

method

AF-Whisper

whisper encoder : whisper Large V3
音频数据按照speech/sound/music三个维度打标签，其中sound/music的标签，主要通过AF2 encoder 进行打标；然后通过gpt 组成成一句描述性话语；作为whisper-decoder AR 预测的目标
decoder ： 24 layers, 8 attention heads, and 1024 hidden size.
其他方法是把speech/sound/music 当作不同的模态，使用不同的encoder，论文最后有对比，统一的编码器效果更好；

LLM

使用Qwen-2.5-7B

streaming tts deocder

DAC rvq 72 级码本，码本数增加可以提升音频质量，但是会增加预测长度；<

http://www.xdnf.cn/news/1278145.html

相关文章：

第4章程序段的反复执行4 多重循环练习（题及答案）

【深度学习新浪潮】遥感图像风格化迁移研究工作介绍

JS中typeof与instanceof的区别

腾讯云EdgeOne KV存储在游戏资源发布中的技术实践与架构解析

数学建模——回归分析

【GPT入门】第44课检查 LlamaFactory微调Llama3的效果

集成电路学习：什么是Parameter Server参数服务器

机器学习-增加样本、精确率与召回率

Java开源代码源码研究：我的成长之路与实战心得分享

学习分库分表的前置知识：高可用系统架构理论与实践

构建企业级Odoo 18 WMS——功能、架构与拓展蓝图

LeetCode每日一题，2025-8-10

《C语言》结构体和联合体练习题--2

前端学习日记 - 前端函数防抖详解

无人机集群协同三维路径规划，采用梦境优化算法（DOA）实现，Matlab代码

python魔法属性__doc__介绍

区块链让物联网真正链接万物

Mysql系列--5、表的基本查询（上）

【论文阅读】Deep Adversarial Multi-view Clustering Network

C语言：指针（2）

基于ECharts的智慧社区数据可视化

Knuth‘s TwoSum Algorithm 原理详解

JS实现数组扁平化

【C#补全计划】万类之父中的方法

Linux环境下实现简单TCP通信（c）

《算法导论》第 16 章 - 贪心算法

[激光原理与应用-221]：设计 - 皮秒紫外激光器 - 常见技术难题、原因与解决方案

博览会（树形DP）