当前位置: 首页 > java >正文

PaliGemma 2-轻量级开放式视觉语言模型

  PaliGemma 2是轻量级开放式视觉语言模型 (VLM),灵感源自 PaLI-3,基于 SigLIP 视觉模型和 Gemma 语言模型等开放式组件。PaliGemma 同时接受图片和文本作为输入,并且可以回答有关图片的详细问题和背景信息。
PaliGemma 2 提供 30 亿、100 亿和 280 亿个参数的大小,分别基于 Gemma 2 20 亿、90 亿和 270 亿个参数的模型。三种参数规模(3B/10B/28B)、三种分辨率(224×224/448×448/896×896)。
在这里插入图片描述

模型架构

  PaliGemma 2 由 Transformer 解码器和 Vision Transformer 图片编码器组成。文本解码器从 2B、9B 和 27B 参数大小的 Gemma 2 初始化。图片编码器从 SigLIP-So400m/14 初始化。与原始 PaliGemma 模型类似,PaLiGemma 2 是按照 PaLI-3 方案训练的。
在这里插入图片描述

输入和输出

  ● 输入:图片和文本字符串,例如用于为图片添加说明的提示或问题。
● 输出:针对输入生成的文本,例如图片的标题、问题的答案、对象边界框坐标列表或分割代码词。

视觉编码器

  SigLIP:其shape optimized ViT-So400m图像编码器,该模型通过sigmoid损失在大规模上进行了对比预训练,且其在小尺寸上也表现出色。

输入投影

  线性投影:将SigLIP的输出到与gemma的词汇token相同的维度,以便它们可以被连接。
LLM主干。

LLM主干

  Gemma2 10B:该模型可以匹配或超越使用相对更大些的语言模型的VLMs的性能,包括之前的PaLIs。
在这里插入图片描述

Finetune

不在这里

http://www.xdnf.cn/news/15791.html

相关文章:

  • 【RocketMQ 生产者和消费者】- 消费者发起消息拉取请求 PullMessageService
  • ps2025下载与安装教程(附安装包) 2025最新版photoshop安装教程
  • 群组功能实现指南:从数据库设计到前后端交互,上班第二周
  • SElinux和iptables介绍
  • Kafka——Java生产者是如何管理TCP连接的?
  • MCP 协议详细分析一 initialize ping tools/list tools/call
  • C++数据结构————集合
  • 暑期训练8
  • 读书笔记:最好使用C++转型操作符
  • MCP 协议详细分析 二 Sampling
  • NX二次开发常用函数——从一个坐标系到另一个坐标系的转换(UF_MTX4_csys_to_csys )相同体坐标转化
  • Supertest(Node.js)接口测试
  • NJU 凸优化导论(9) 对偶(II)KKT条件+变形重构
  • 笔试强训——第一周
  • 阿里云服务器 CentOS 7 安装 MySQL 8.4 超详细指南
  • 2025年医疗人工智能发展现状
  • 网络基础DAY14-可靠性概念及要求+链路聚合
  • 机器学习漫画小抄 - 彩图版
  • 『 C++ 入门到放弃 』- AVL树
  • 了解.NET Core状态管理:优化技巧与常见问题解决方案
  • 暑假--作业3
  • Linux 自旋锁
  • 13.4 Meta LLaMA开源模型家族全面解析:从Alpaca到Vicuna的技术内幕
  • 笛卡尔积规避:JOIN条件完整性检查要点
  • React生命周期
  • 【Bluedroid】btif_av_sink_execute_service之服务器启用源码流程解析
  • 一动一静皆消耗——IC设计之低功耗技术(Low Power Design)
  • install_arm_docker.sh
  • Redis性能测试全攻略:工具实操与性能优化指南
  • 安装单机版本Redis