当前位置：首页 > news >正文

[LLaVA] Visual Instruction Tuning

news 2025/8/12 20:36:52

1、贡献

1）用language-only GPT-4从图像-文本对中生成多模态language-image指令微调数据

2）提出Large Language and Vision Assistant（LLaVA）框架，端到端的训练了连接vision encoder和LLM的大型多模态模型，用于图像和语言理解

3）构建了两个评估benchmark

2、指令遵循数据

1）text：captions + bounding boxes

2）数据来源：COCO images

3）类型（158K）

-> conversation（58K）：只包含有确定回答的问题；关于图像中物体的类型、计数、动作、位置、相对位置关系

-> detailed description（23K）：从list中任选一个问题

-> complex reasoning（77K）：需要借助step-by-step推理过程才能回答

3、模型

1）visual encoder：CLIP ViT-L/14（grid features before and after the last Transformer layer）

2）language decoder：Vicuna

3）pretrained LLM：LLaMA

4）训练

1）pre-training for feature alignment

a）CC3M，595K图像文本对

b）单轮对话：describe the image briefly

c）只训练W参数，固定其他参数，得到visual tokenizer

2）fine-tuning end-to-end

同时训练W参数和LLM参数，固定visual encoder

4、LLaVA-Bench

配对的图像、指令、详细标注

1）COCO-Val-2024，30 images

2）In-the-Wild，24 images，60 questions

查看全文

http://www.xdnf.cn/news/94537.html

MFC案例：使用键盘按键放大、缩小窗口图像的实验

【Unity笔记】Unity 编辑器扩展：一键查找场景中组件引用关系（含完整源码）（组件引用查找工具实现笔记）

Kafka

Vmware安装centos7和Redis

KafkaSpark

git 将某次提交的某个文件提交到另一个分支

基于CBOW模型的神经网络词向量转换原理与实践

SQL 多表查询：数据整合与分析的强大工具

sizeof和strlen的区别

URP-UGUI交互功能实现

NLP高频面试题（五十三）——LLM中激活函数详解

【无人机】无人机光流模块Optical Flow设置（三），光流测距一体传感器的配置。凌启科技的光流测距一体模块的测试。

珈和科技助力“农险提效200%”！“遥感+”技术创新融合省级示范项目荣登《湖北卫视》！

Javashop新零售电商系统：构建智能零售生态的终极解决方案

【android bluetooth 框架分析 03】【Bta 层详解 1】【Bluetooth Application Laye 介绍】

5.4.云原生与服务网格

数据为基：机器学习中数值与分类数据的处理艺术及泛化实践

C++ 容器查找效率

Java基础：认识注解，模拟junit框架

如何提升个人解决问题的能力？

Ethan独立开发产品日报 | 2025-04-22

CS 系列 USB3.0 工业面阵相机不同快门类型的作用及其区别

从边缘到云端，如何通过时序数据库 TDengine 实现数据的全局洞

神经网络相关内容

JavaScript 渲染内容爬取：Puppeteer 高级技巧与实践

AI与Web3.0：技术融合

python动态注册执行action

QT 打包安装程序【windeployqt.exe】报错c000007d原因：Conda巨坑

单片机外设模块汇总与介绍

动态规划（一）【背包】

1、贡献

2、指令遵循数据

3、模型

4、LLaVA-Bench

相关文章：