当前位置: 首页 > ds >正文

视觉大模型学习总结

        LLM在NLP大杀四方的同时,一些工作在视觉领域也开始流行起来,以下是目前主流的视觉大模型(Multimodal Vision-Language Models,VLMs)的简要总结,包括它们的架构特点、能力定位和适用场景:


🔷 1. Idefics 系列(Idefics 1 & 2)

  • 开发者:Hugging Face

  • 架构:基于 LLaMA / Mistral,大型解码器-only 架构

  • 输入:图像 + 自由文本指令

  • 能力

    • 多图输入、多轮对话

    • 支持 open-ended QA、图像理解、推理

  • 特点

    • Idefics2 模型参数大(最多80B),强化了推理能力

    • 模型是开放权重,适合进一步 fine-tuning

  • 代表用途:图文推理、开放式问答、图像描述


🔷 2. Qwen-VL 系列(Qwen-VL & Qwen-VL-Chat)

  • 开发者:阿里巴巴达摩院

  • 架构:基于 Qwen(类似 LLaMA2),加入视觉编码器(CLIP-like)

  • 输入:单图+文本,支持 OCR、表格解析等

  • 能力

    • 多模态对话

    • 支持区域定位(bounding box)、图中 OCR、图文理解

  • 特点

    • 中文能力优秀(优化了中文预训练语料)

    • 开源,提供了多种规模的模型(1.8B / 7B 等)

  • 代表用途:中文场景图文理解、图文问答、多模态交互系统


🔷 3. LLaVA 系列(LLaVA, LLaVA-1.5, LLaVA-Next)</

http://www.xdnf.cn/news/8061.html

相关文章:

  • 通过 curl 精准定位问题
  • 从零开始的嵌入式学习day25
  • Java SSM与SpringBoot面试题全面解析:从基础到源码
  • 线性表数据结构-队列
  • 8:点云处理—常见的四种3D相机
  • 今日行情明日机会——20250521
  • 探索Puter:一个基于Web的轻量级“云操作系统”
  • Java基础 5.21
  • 重磅升级!Google Play商店改版上线
  • Web服务器
  • C++语言的跨平台挑战和应对策略
  • centos7 p8p1使用ip addr查看时有的时候有两个ip,有的时候只有一个ip,有一个ip快,有一个ip慢
  • 如何在 Windows 10 或 11 上使用命令提示符安装 Angular
  • Vue Router动态路由与导航守卫实战
  • RESTful风格
  • 从零基础到最佳实践:Vue.js 系列(6/10):《Composition API(组合式 API)》
  • 论文篇目录-研究生如何阅读编写论文
  • Linux系统编程-DAY02
  • 直播美颜SDK技术解析:滤镜渲染与动态贴纸引擎融合的底层实现
  • 机器学习第二十讲:网格搜索 → 像尝试所有密码组合找最佳解锁方式
  • Python爬虫实战:获取天气网最近一周北京的天气数据,为日常出行做参考
  • java的synchronized 原理及功能
  • 继DeepSeek之后,又一国产模型迎来突破,或将解答手机端AI的疑惑
  • 教培机构线上线下课程小程序开发:构建数字化教育新生态
  • 模板初阶【C++】
  • 景区导览系统有哪些技术选型?架构设计到真实场景的攻坚指南(一)
  • docker面试题(4)
  • Parasoft为可口可乐赋能: 强化软件开发与质量保证
  • 二叉树的半线性
  • 前端面经-nginx/docker