当前位置: 首页 > ops >正文

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

  • 2024.8
  • tsinghua

在这里插入图片描述

method

  • whisper encoder: whisper small

  • LLM

    • Qwen0.5b init
    • 预测方式:text + 7*audio token, parallel generation的方式预测,delay-step=1----先预测文本token,再预测SNAC 第一级码本,然后序列化的逐渐预测后续码本,也遵循了coarse-to-fine的预测;
      在这里插入图片描述
  • audio token:SNAC的码本,7级
    在这里插入图片描述

  • SNAC 的不同级别,码本的预测粒度不同;

在这里插入图片描述

在这里插入图片描述

data

VoiceAssistant-400K 的数据集

http://www.xdnf.cn/news/17509.html

相关文章:

  • openpnp - 顶部相机环形灯光DIY
  • HTTPS 协议原理 ——4种方案
  • 如何解决 JetBrains IntelliJ IDEA 2024.2 和 2025.2 新版本区域选择问题:key is invalid
  • VBA即用型代码手册:计算选择的单词数Count Words in Selection
  • 网络资源模板--基于Android Studio 实现的手绘板App
  • 第9节 大模型分布式推理核心挑战与解决方案
  • glide缓存策略和缓存命中
  • Godot ------ 平滑拖动01
  • GAI 与 Tesla 机器人的具体联动机制
  • 基于Spring Data Elasticsearch的分布式全文检索与集群性能优化实践指南
  • 飞算 JavaAI 智能进阶:从技术工具到金融科技开发范式的革新
  • 开博尔雷电5数据线:120Gbps“闪电传输”,以Intel硬核基因从容优化数字生活
  • 跨国智能制造场景下,如何选择更可靠的SD-WAN服务商?
  • 关系型数据库:原理、演进与生态全景——从理论基石到云原生的深度巡礼
  • 【MySQL✨】服务器安装 MySQL 及配置相关操作
  • 从零构建企业级K8S:高可用集群部署指南
  • TDengine IDMP 基本功能(2.数据建模)
  • 设备 “心电图” 系统专家 —— 一二三物联网智能监测方案,让故障预测精度大幅提升
  • MQTT:Java集成MQTT
  • 【LLM】OpenAI开源GPT级模型,120B及20B参数GPT-OSS
  • 调用springboot接口返回403,问题定位及总结
  • Java 大视界 -- Java 大数据机器学习模型在电商商品销量预测与库存精准管理中的应用(391)
  • 安装1panel之后如何通过nginx代理访问
  • 展锐平台(Android15)WLAN热点名称修改不生效问题分析
  • 【Docker实战】Spring Boot应用容器化
  • Chat2DB入门教程
  • JavaSE:入门
  • 【图像算法 - 11】基于深度学习 YOLO 与 ByteTrack 的目标检测与多目标跟踪系统(系统设计 + 算法实现 + 代码详解 + 扩展调优)
  • MySQL的隔离级别及MVCC原理解析
  • SpringCloud详细笔记