当前位置: 首页 > backend >正文

[2025CVPR-图象分类]ProAPO:视觉分类的渐进式自动提示优化

研究背景与问题

  1. 视觉语言模型(VLMs)的局限性​:

    • VLMs(如CLIP)在图像分类中依赖提示词(prompt)质量,传统方法存在以下问题:
      • 人工设计模板需领域知识,难以扩展且缺乏细粒度区分(如“a photo of a {class}”)。
      • 提示微调方法​(prompt tuning)引入可学习参数,但需额外训练且可解释性差。
      • LLM生成的描述可能因幻觉产生不准确或非视觉内容(如将食物描述为“feet”),且缺乏类间区分性(如不同海鸟的相同描述)。
  2. 核心问题​:

    如何在无人工干预、最小监督下,为细粒度分类任务生成视觉区分性强的类特定提示?​


方法:ProAPO框架

1. 渐进式优化流程
  • 阶段1:任务特定模板优化

    • 初始化模板库(如CLIP的80个预定义模板),通过演化算法迭代优化模板集合。
    • 操作符​:
      • 编辑操作​(添加、删除、替换模板元素)。
      • 演化操作​(交叉融合高分模板,变异引入随机性)。
    • 保留适应度得分(fitness score)最高的top-k模板
http://www.xdnf.cn/news/16523.html

相关文章:

  • ubuntu22.04 安装 petalinux 2021.1
  • B+树高效实现与优化技巧
  • 微信小程序私密消息
  • 聚铭安全管家平台2.0实战解码 | 安服篇(三):配置保障 自动核查
  • yolov11的简单实例
  • 【密码学】4. 分组密码
  • 关闭 UniGetUI 自动 Pip 更新,有效避免 Anaconda 环境冲突教程
  • Python Pandas.merge函数解析与实战教程
  • 软件测试之功能测试
  • Ubuntu系统完整配置教程
  • unbuntn 22.04 coreutils文件系统故障
  • RabbitMQ快速入门
  • 基于FPGA和DDS原理的任意波形发生器(含仿真)
  • 【Unity】Application类常见路径一览表
  • 基于LangGraph Cli的智能数据分析助手
  • 主要分布于内侧内嗅皮层的层Ⅲ的网格-速度联合细胞(Grid × Speed Conjunctive Cells)对NLP中的深层语义分析的积极影响和启示
  • OpenCV(05)直方图均衡化,模板匹配,霍夫变换,图像亮度变换,形态学变换
  • nvim cspell
  • 基于 OpenCV 与 sklearn 的数字识别:KNN 算法实践
  • 123页PPT麦肯锡49个思维工具和方法论PPT
  • 一个典型的微控制器MCU包含哪些模块?
  • Java Collections工具类
  • 达梦有多少个模式
  • 页面性能优化
  • Java基础-IO流
  • 【灰度实验】——图像预处理(OpenCV)
  • 商用车的自动驾驶应用场景主要包括七大领域
  • 开发指南125-HTML DOM事件
  • 1.gradle安装(mac)
  • RocketMQ入门实战详解