Audio Flamingo
文章目录
- [Audio Flamingo 3](https://research.nvidia.com/labs/adlr/AF3/) [2025.6]
-
- abstract
- method
-
- AF-Whisper
- LLM
- streaming tts deocder
- data
- experiment
- result
Audio Flamingo 3 [2025.6]
abstract
- 可以处理speech/audio/music,多种音频形态的speech2speech
method
AF-Whisper
- whisper encoder : whisper Large V3
- 音频数据按照speech/sound/music三个维度打标签,其中sound/music的标签,主要通过AF2 encoder 进行打标;然后通过gpt 组成成一句描述性话语;作为whisper-decoder AR 预测的目标
- decoder : 24 layers, 8 attention heads, and 1024 hidden size.
- 其他方法是把speech/sound/music 当作不同的模态,使用不同的encoder,论文最后有对比,统一的编码器效果更好;
LLM
使用Qwen-2.5-7B
streaming tts deocder
- DAC rvq 72 级码本,码本数增加可以提升音频质量,但是会增加预测长度;<