当前位置: 首页 > news >正文

[LLaVA] Visual Instruction Tuning

1、贡献

        1)用language-only GPT-4从图像-文本对中生成多模态language-image指令微调数据

        2)提出Large Language and Vision Assistant(LLaVA)框架,端到端的训练了连接vision encoder和LLM的大型多模态模型,用于图像和语言理解

        3)构建了两个评估benchmark

2、指令遵循数据

        

        1)text:captions + bounding boxes

        2)数据来源:COCO images

        3)类型(158K)

                -> conversation(58K):只包含有确定回答的问题;关于图像中物体的类型、计数、动作、位置、相对位置关系

                        

                -> detailed description(23K):从list中任选一个问题

                        

                -> complex reasoning(77K):需要借助step-by-step推理过程才能回答

3、模型

                

        1)visual encoder:CLIP ViT-L/14(grid features before and after the last Transformer layer)

        2)language decoder:Vicuna

        3)pretrained LLM:LLaMA

                

        4)训练

                1)pre-training for feature alignment 

                        a)CC3M,595K图像文本对

                        b)单轮对话:describe the image briefly

                        

                        c)只训练W参数,固定其他参数,得到visual tokenizer                  

                2)fine-tuning end-to-end

                        同时训练W参数和LLM参数,固定visual encoder

4、LLaVA-Bench

        配对的图像、指令、详细标注

        1)COCO-Val-2024,30 images

        2)In-the-Wild,24 images,60 questions

http://www.xdnf.cn/news/94537.html

相关文章:

  • MFC案例:使用键盘按键放大、缩小窗口图像的实验
  • 【Unity笔记】Unity 编辑器扩展:一键查找场景中组件引用关系(含完整源码)(组件引用查找工具实现笔记)
  • Kafka
  • Vmware安装centos7和Redis
  • KafkaSpark
  • git 将某次提交的某个文件提交到另一个分支
  • 基于CBOW模型的神经网络词向量转换原理与实践
  • SQL 多表查询:数据整合与分析的强大工具
  • sizeof和strlen的区别
  • URP-UGUI交互功能实现
  • NLP高频面试题(五十三)——LLM中激活函数详解
  • 【无人机】无人机光流模块Optical Flow设置(三),光流测距一体传感器的配置。凌启科技的光流测距一体模块的测试。
  • 珈和科技助力“农险提效200%”!“遥感+”技术创新融合省级示范项目荣登《湖北卫视》!
  • Javashop新零售电商系统:构建智能零售生态的终极解决方案
  • 【android bluetooth 框架分析 03】【Bta 层详解 1】【Bluetooth Application Laye 介绍】
  • 5.4.云原生与服务网格
  • 数据为基:机器学习中数值与分类数据的处理艺术及泛化实践
  • C++ 容器查找效率
  • Java基础:认识注解,模拟junit框架
  • 如何提升个人解决问题的能力?
  • Ethan独立开发产品日报 | 2025-04-22
  • CS 系列 USB3.0 工业面阵相机不同快门类型的作用及其区别
  • 从边缘到云端,如何通过时序数据库 TDengine 实现数据的全局洞
  • 神经网络相关内容
  • JavaScript 渲染内容爬取:Puppeteer 高级技巧与实践
  • AI与Web3.0:技术融合
  • python动态注册执行action
  • QT 打包安装程序【windeployqt.exe】报错c000007d原因:Conda巨坑
  • 单片机外设模块汇总与介绍
  • 动态规划(一)【背包】