当前位置：首页 > news >正文

[原理理解] 超分使用到的RAM模型和LLAVA模型

news 2025/7/13 3:42:35

文章目录

前述
RAM 模型介绍
LLAVA 模型介绍

前述

最近在研究基于diffusion的超分模型，发现基本都文本编码的时候都需要用到RAM模型或者LLAVA模型，两个有什么区别呢？

RAM 模型介绍

RAM（Recognize Anything Model）是用于图像识别和描述的模型，能从图像中识别多种对象、属性和场景，并生成对应的文本标签。它基于 Vision Transformer（ViT）架构，尤其代码里用的是 Swin Transformer 作为骨干网络，在大规模图像数据集上预训练，具备强大的图像特征提取和理解能力。

RAM 模型用于文本提示提取，从图像里提取文本描述，为后续图像生成任务提供语义信息。

LLAVA 模型介绍

LLAVA（Large Language and Vision Assistant）是多模态大模型，结合大语言模型（LLM）和视觉模型能力，能处理图像和文本输入，进行复杂多模态对话。它通过将视觉特征和语言特征对齐，让模型理解图像内容并以自然语言形式回答相关问题。

两者区别

功能定位
RAM：主要功能是图像识别和标签生成，输出是一系列描述图像内容的标签，为其他任务提供图像语义信息。
LLAVA：专注多模态对话，支持用户输入图像和文本问题，以自然语言形式给出详细回答，更强调交互性和对话能力。
架构设计
RAM：基于 Vision Transformer 架构，特别是 Swin Transformer，核心在图像特征提取和标签生成。
LLAVA：结合视觉模型和大语言模型，先通过视觉模型提取图像特征，再将特征与文本输入一起送入语言模型处理，架构更复杂，需协调视觉和语言两个模态。
输出形式
RAM：输出是图像对应的文本标签列表，形式相对简单，如 [“cat”, “table”, “room”]。
LLAVA：输出是自然语言描述或回答，内容详细、完整，如 “图像里有一只猫趴在桌子上，背景是一个房间”。
应用场景
RAM：适用于图像标注、图像检索等需要快速获取图像语义信息的场景，也可为图像生成任务提供文本提示。
LLAVA：多用于多模态对话系统、智能客服、图像理解问答等需要深入交互和自然语言交流的场景。

查看全文

http://www.xdnf.cn/news/615169.html