当前位置: 首页 > web >正文

【多模态大模型】--BLIP3

文章目录

  • BLIP3
    • 架构
    • Any-Resolution Vision Token Sampling
    • 训练
    • 数据


BLIP3

今天学习一下BLIP3,BLIP3相对BLIP2做了比较大的改进,主要是针对BLIP2的下面几个问题:
1. 只支持单图像输入,不能算是一个自然的多模态交互形式
2. 损失函数由三部分组成,可能存在多任务目标不一致的情况。
3. 数据上,数据量小,多样性不足。

针对上述问题,我们来过一下BLIP3的核心内容。
在这里插入图片描述

架构

BLIP3舍弃了BLIP2提出的Q-Former架构,而是采用了Flamingo提出的Perceiver Resampler的做法,其实二者的核心都差不多,都是讲图像编码器得到的视觉token的输入再映射到一个固定数量的token。整体架构如图所示:
在这里插入图片描述

Any-Resolution Vision Token Sampling

任意分辨率视觉token采样:

  1. 首先匹配最近的分辨率
  2. 再进行切分patch,因为sigLIP的输入的分辨率是384x384,所以将一个768x768的图片切分为4个patch,外加一个resize的整体的patch,应该就是下采样,使其分辨率降低。所以总共有5个patch。
  3. 将这5个patch输入到视觉编码器,得到5x24x24xd=5x576xD.
  4. 然后将其输送到Perceiver Resampler得到5x128xD=640xD这个token数量的维度,然后再作为图像信息输进去
    其实上述的核心就是图像信息更加细粒度了,另一个是不管任意分辨率,都能得到固定长度的图像表示。
    这一点确实是合理的,如果直接输到视觉编码器里面,patch划分后是更粗粒度一些,但是也包含所有的信息,这种做法,其实也不是很理解。
    在这里插入图片描述

训练

整个训练分为预训练,指令微调,DPO偏好对齐

数据

本文产生了大量的数据集。现在看来,最大的贡献其实就是数据集,整个的架构目前感觉用MLP连接更合理,也不需要将得到的视觉的token转换为一个固定的数量。
在这里插入图片描述

http://www.xdnf.cn/news/18010.html

相关文章:

  • 集成电路学习:什么是Object Detection目标检测
  • Apache 如何支持SHTML(SSI)的配置方法
  • DAY41打卡
  • 高等数学 8.3 平面及其方程
  • 力扣top100(day04-04)--栈
  • 结构体(Struct)、枚举(Enum)的使用
  • MySQL的学习笔记
  • 基于Spring Boot的智能民宿预订与游玩系统设计与实现 民宿管理系统 民宿预订系统 民宿订房系统
  • Fiddler 实用指南,让网络调试更直观、更高效
  • 【秋招笔试】2025.08.15饿了么秋招机考-第三题
  • 4.3 computed watch watchEffect
  • 日本CN2服务器租用多少钱
  • sqli-labs通关笔记-第50关 GET数值型order by堆叠注入(手工注入+脚本注入两种方法)
  • Redis 缓存和 Redis 分布式锁
  • Java 大视界 -- 基于 Java 的大数据可视化在城市交通拥堵治理与出行效率提升中的应用(398)
  • 嵌入式硬件篇---电容滤波
  • Python Sqlalchemy数据库连接
  • 华测科技的3D GPR数据分析
  • 无线也要“自主可控”——东土科技WLAN方案
  • C语言+安全函数+非安全函数
  • imx6ull-驱动开发篇26——Linux 中断实验
  • Pytest 插件使用指南:让你的测试更高效
  • GitHub的使用教程
  • WordPress 7B2主题,在使用PHP 8.0+出现502的解决办法。
  • php危险函数,二.assert()[现版本已弃用]
  • 第十六届蓝桥杯青少组C++省赛[2025.8.9]第二部分编程题(4、矩阵圈层交错旋转)
  • MyBatis 动态数据源切换在 Spring Boot 环境下的实现方案
  • 【postgresql】一文详解postgresql中的统计模块
  • 云手机存储和本地存储的区别
  • C#WPF实战出真汁06--【系统设置】--餐桌类型设置