当前位置: 首页 > web >正文

【MLLM】Qwen2.5-Omni-7B/3B模型

note

  • 全模态LLM:输入可以是文本、图片、语音、视频,输出可以是流式的文本/语音
  • 提出Thinker-Talker模型架构
  • 提出了一种名为 TMRoPE(时间对齐多模态 RoPE)的新颖位置嵌入,用于同步视频输入和音频的时间戳
  • 实时语音和视频聊天:专为完全实时交互而设计的架构,支持分块输入和即时输出
  • 和单模态模型作对比,更强:Qwen2.5-Omni 在音频功能方面优于类似大小的 Qwen2-Audio,并达到了与 Qwen2.5-VL-7B 相当的性能

文章目录

  • note
  • 一、Qwen2.5-Omni-7B模型
  • 二、Qwen2.5-Omni-3B模型
  • 三、模型架构
  • 四、模型效果

一、Qwen2.5-Omni-7B模型

  • 是全模态LLM:输入可以是文本、图片、语音、视频,输出可以是流式的文本/语音
  • 提出Thinker-Talker模型架构
  • 提出了一种名为 TMRoPE(时间对齐多模态 RoPE)的新颖位置嵌入,用于同步视频输入和音频的时间戳
  • 实时语音和视频聊天:专为完全实时交互而设计的架构,支持分块输入和即时输出
  • 和单模态模型作对比,更强:Qwen2.5-Omni 在音频功能方面优于类似大小的 Qwen2-Audio,并达到了与 Qwen2.5-VL-7B 相当的性能

在这里插入图片描述

Qwen2.5-Omni-7B是一个端到端的多模态模型,可以接收文本、图像、音频和视频的输入,以文本或语音作为输出,参数模型结构见图2-3。

HF link:
https://huggingface.co/Qwen/Qwen2.5-Omni-7B
Paper:
https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

Qwen2.5-Omni提出了Thinker-Talker架构,同时提出了TMRoPE(时间对齐多模态 RoPE)的新型位置编码,用于同步视频输入的时戳与音频,支持全实时交互,支持分块输入和即时输出。

Qwen2.5-Omni,文本部分初始化采用Qwen2.5模型,Vision编码器初始化采用Qwen2.5-VL部分,Audio编码器初始化使用Whisper-large-v3。

Qwen2.5-Omni效果很强,在音频能力上优于同等规模的Qwen2-Audio,在视觉能力上与Qwen2.5-VL-7B相当。

注意:如果需要音频输出,系统提示词必须为“You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.”

二、Qwen2.5-Omni-3B模型

HF link: https://huggingface.co/Qwen/Qwen2.5-Omni-3B

Paper: https://huggingface.co/papers/2503.20215

三、模型架构

在这里插入图片描述
一、架构设计:​​

  • ​​Thinker-Talker架构:​​ Thinker负责处理和理解来自文本、音频和视频模态的输入,生成高层次的表示和相应的文本。Talker则负责接收Thinker的高层次表示,并以流式方式生成语音令牌。
  • TMRoPE:​​ 提出了一种新的位置嵌入方法TMRoPE,显式地结合时间信息以同步音频和视频。通过对原始旋转嵌入进行分解,分别处理时间、高度和宽度信息。
  • 流式处理:​​ 采用块状流处理方法,支持多模态信息的实时处理。音频和视频编码器分别采用块状注意力和闪存注意力机制,以提高处理效率。

​​
二、生成过程:​

  • 文本生成:​​ 由Thinker直接生成文本,采用自回归采样方法,基于词汇表上的概率分布生成文本。
  • 语音生成:​​ Talker接收Thinker的高层次表示和文本令牌的嵌入,自回归地生成音频令牌。引入滑动窗口块注意力机制,限制当前令牌的上下文访问范围,增强流式输出的质量。
    ​​

三、训练过程:​​

  • 预训练:​​ 分为三个阶段,第一阶段锁定LLM参数,训练视觉和音频编码器;第二阶段解冻所有参数,进行更广泛的多模态数据训练;第三阶段使用长序列数据进行训练,增强模型对复杂长序列数据的理解能力。
  • 后训练:​​ 包括指令跟随数据训练、DPO优化和多说话人指令微调,提升语音生成的稳定性和自然性。

四、模型效果

在这里插入图片描述

http://www.xdnf.cn/news/3755.html

相关文章:

  • 【Mytais系列】缓存机制:一级缓存、二级缓存
  • 游戏代码C
  • python中的函数
  • PMP-第六章 项目进度管理(三)
  • 基于springboot的金院银行厅预约系统的设计及实现(源码+lw+部署文档+讲解),源码可白嫖!
  • Vue中的过滤器知道多少?从是什么、怎么用、应用场景、原理分析、示例解释
  • 第39课 绘制原理图——绘制命令在哪里?
  • C++11(1)
  • 优化高搜索量还是低竞争关键词?SEO策略解析
  • DNAT与SNAT
  • 剖析扩散模型(Denoising Diffusion Probabilistic Models)
  • 【序列贪心】摆动序列 / 最长递增子序列 / 递增的三元子序列 / 最长连续递增序列
  • 黑客学习计划
  • PowerBI企业运营分析——多维度日期指标分析
  • stm32f4 声音传感器采集
  • [UVM]在SoC中用寄存器模型backdoor访问寄存器的案例
  • 存在重复元素II(简单)
  • 用 DuckDB 高效分析 JSON 数据:从入门到实战
  • 机器学习常用评价指标
  • P1004 [NOIP 2000 提高组] 方格取数
  • api补充
  • 在GPU集群上使用Megatron-LM进行高效的大规模语言模型训练
  • 有效的字母异位词(简单)
  • 闭包(Closure)及其作用和影响
  • 《ATPL地面培训教材13:飞行原理》——第5章:升力
  • 【算法应用】基于灰狼算法优化深度信念网络回归预测(GWO-DBN)
  • C# 运算符重载深度解析:从基础到高阶实践
  • MIT6.S081-lab8
  • 十一岁少年叶珉雪用艺术点亮公益之路 个人原创公益演唱会传递大爱与担当
  • C++类_构造函数