当前位置: 首页 > news >正文

Audio Flamingo

文章目录

  • [Audio Flamingo 3](https://research.nvidia.com/labs/adlr/AF3/) [2025.6]
    • abstract
    • method
      • AF-Whisper
      • LLM
      • streaming tts deocder
    • data
    • experiment
    • result

Audio Flamingo 3 [2025.6]

在这里插入图片描述

abstract

  • 可以处理speech/audio/music,多种音频形态的speech2speech

method

AF-Whisper

  • whisper encoder : whisper Large V3
  • 音频数据按照speech/sound/music三个维度打标签,其中sound/music的标签,主要通过AF2 encoder 进行打标;然后通过gpt 组成成一句描述性话语;作为whisper-decoder AR 预测的目标
  • decoder : 24 layers, 8 attention heads, and 1024 hidden size.
  • 其他方法是把speech/sound/music 当作不同的模态,使用不同的encoder,论文最后有对比,统一的编码器效果更好;

LLM

使用Qwen-2.5-7B

streaming tts deocder

  • DAC rvq 72 级码本,码本数增加可以提升音频质量,但是会增加预测长度;<
http://www.xdnf.cn/news/1278145.html

相关文章:

  • 第4章 程序段的反复执行4 多重循环练习(题及答案)
  • Python day40
  • C++ list类
  • 【深度学习新浪潮】遥感图像风格化迁移研究工作介绍
  • JS中typeof与instanceof的区别
  • 腾讯云EdgeOne KV存储在游戏资源发布中的技术实践与架构解析
  • 数学建模——回归分析
  • 【GPT入门】第44课 检查 LlamaFactory微调Llama3的效果
  • 集成电路学习:什么是Parameter Server参数服务器
  • 机器学习-增加样本、精确率与召回率
  • Java开源代码源码研究:我的成长之路与实战心得分享
  • 学习分库分表的前置知识:高可用系统架构理论与实践
  • 构建企业级Odoo 18 WMS——功能、架构与拓展蓝图
  • LeetCode每日一题,2025-8-10
  • 《C语言》结构体和联合体练习题--2
  • 前端学习日记 - 前端函数防抖详解
  • 无人机集群协同三维路径规划,采用梦境优化算法(DOA)实现,Matlab代码
  • python魔法属性__doc__介绍
  • 区块链让物联网真正链接万物
  • Mysql系列--5、表的基本查询(上)
  • 【论文阅读】Deep Adversarial Multi-view Clustering Network
  • C语言:指针(2)
  • 基于ECharts的智慧社区数据可视化
  • Knuth‘s TwoSum Algorithm 原理详解
  • JS实现数组扁平化
  • 【C#补全计划】万类之父中的方法
  • Linux环境下实现简单TCP通信(c)
  • 《算法导论》第 16 章 - 贪心算法
  • [激光原理与应用-221]:设计 - 皮秒紫外激光器 - 常见技术难题、原因与解决方案
  • 博览会(树形DP)