视觉大模型学习总结
LLM在NLP大杀四方的同时,一些工作在视觉领域也开始流行起来,以下是目前主流的视觉大模型(Multimodal Vision-Language Models,VLMs)的简要总结,包括它们的架构特点、能力定位和适用场景:
🔷 1. Idefics 系列(Idefics 1 & 2)
-
开发者:Hugging Face
-
架构:基于 LLaMA / Mistral,大型解码器-only 架构
-
输入:图像 + 自由文本指令
-
能力:
-
多图输入、多轮对话
-
支持 open-ended QA、图像理解、推理
-
-
特点:
-
Idefics2 模型参数大(最多80B),强化了推理能力
-
模型是开放权重,适合进一步 fine-tuning
-
-
代表用途:图文推理、开放式问答、图像描述
🔷 2. Qwen-VL 系列(Qwen-VL & Qwen-VL-Chat)
-
开发者:阿里巴巴达摩院
-
架构:基于 Qwen(类似 LLaMA2),加入视觉编码器(CLIP-like)
-
输入:单图+文本,支持 OCR、表格解析等
-
能力:
-
多模态对话
-
支持区域定位(bounding box)、图中 OCR、图文理解
-
-
特点:
-
中文能力优秀(优化了中文预训练语料)
-
开源,提供了多种规模的模型(1.8B / 7B 等)
-
-
代表用途:中文场景图文理解、图文问答、多模态交互系统