当前位置: 首页 > news >正文

深度学习·ExCEL

WSSS

ExCEL方法

在这里插入图片描述

TSE

“only indicates the presence of objects while limited providing dense knowledge for” (Yang 等, 2025, p. 20225) (pdf) 🔤仅表示物体的存在,而有限地提供密集的知识🔤

  • 传统的text prompt 只能表示物体存在,不能提供任何其他的信息,所以在语义分割这种密集任务中表现不佳.
  • 对每一个类都查询GPT获得具体的描述信息,总共n=20个特征
    在这里插入图片描述

“This knowledge base gathers descriptive properties for the whole dataset, building a strong foundation for the textual category representation” (Yang 等, 2025, p. 20226) (pdf) 🔤该知识库收集了整个数据集的描述性属性,为文本类别表示奠定了坚实的基础🔤

  • 作者不是简单的讲所有GPT生成的额外类别属性简单的融合,而是将这些属性聚类为更加通用的属性,将其转换为一种隐式属性的搜索过程

“The clustered attributes efficiently capture shared contextual knowledge from other categories, supplementing missing information for target class recognition” (Yang 等, 2025, p. 20226) (pdf) 🔤聚类属性有效地捕获来自其他类别的共享上下文知识,补充目标类识别的缺失信息🔤
“The use of attributes makes the knowledge more compact and representative, leading to precise text prompting.” (Yang 等, 2025, p. 20226) (pdf) 🔤属性的使用使知识更加紧凑和具有代表性,从而实现精确的文本提示。🔤

  • 作者对这些知识库中的属性进行聚类,得到B个聚类中心,其中B=112或者224(Pascal VOC or COCO)
    在这里插入图片描述
  • 给定一个class token,将聚类中心与其计算相似度分数,然后根据分数选取前K个进行text embedding的融合,权重就是聚类分数,然后注意有个权重λ\lambdaλ
    在这里插入图片描述

VC Visual Calibrations

  • 动机:CLIP缺乏细粒度的信息,导致补丁和文本对齐不合理。

“lack fine-grained information, leading to unreasonable localization maps via patch-text alignment.” (Yang 等, 2025, p. 20226) (pdf) 🔤缺乏细粒度信息,导致通过补丁文本对齐导致不合理的本地化映射。🔤

Static Visual Calibration

However, due to the inherent image-text alignment of CLIP, the original q-k attention produces overly uniform attention maps,
“homogenizing diverse tokens from v to capture broad semantics for global image representation (see discussions in Sec. 4.4).” (Yang 等, 2025, p. 20226) (pdf) 🔤将 V 中的不同标记同质化,以捕获全局图像表示的广泛语义(参见第 4.4 节中的讨论)。🔤

  • 将自注意力机制替换为Intra-correltation机制
  • 只在最后几层进行计算,分别对q,k,v计算,权重相等。
  • 在这里插入图片描述

Learnable Visual Calibration

  • 简单来说,就是引用一个额外的适配器adptor
  • 对通过刚才方式计算的注意图进行额外的修正
  • R矩阵的目的是:影响特征的分布,激活相关的token,避免激活无关的token

在这里插入图片描述

  • 训练适配器的损失函数:
    在这里插入图片描述

在这里插入图片描述

http://www.xdnf.cn/news/1294597.html

相关文章:

  • 基于js和html的点名应用
  • Jenkins一直无法启动,怎么办?
  • C# 反射入门:如何获取 Type 对象?
  • Android平台RTSP播放器选型指南:从开源方案到跨平台低延迟专业SDK
  • 浅层神经网络
  • Mysql——如何做到Redolog崩溃后恢复的
  • 完整源码+技术文档!基于Hadoop+Spark的鲍鱼生理特征大数据分析系统免费分享
  • Linux 软件编程:文件IO、目录IO、时间函数
  • VUE基础笔记
  • JS的学习5
  • 更改webpack默认配置项
  • 单片机启动流程详细介绍
  • 高防CDN和高防IP的各自优势
  • RabbitMQ:Windows版本安装部署
  • STM32H743开发周记问题汇总(串口通讯集中)
  • golang语言和JAVA对比
  • 一条n8n工作流
  • SVN提交服务器拒绝访问的问题
  • Linux 桌面到工作站的“性能炼金术”——开发者效率的 6 个隐形瓶颈与破解方案
  • 服务器硬件电路设计之 I2C 问答(五):I2C 总线数据传输方向如何确定、信号线上的串联电阻有什么作用?
  • 【MCP开发】Nodejs+Typescript+pnpm+Studio搭建Mcp服务
  • 从零到一:TCP 回声服务器与客户端的完整实现与原理详解
  • 基于UniApp的智能在线客服系统前端设计与实现
  • 人工智能入门①:AI基础知识(上)
  • 18.10 SQuAD数据集实战:5步高效获取与预处理,BERT微调避坑指南
  • InnoDB如何解决脏读、不可重复读和幻读的?
  • 公司项目用户密码加密方案推荐(兼顾安全、可靠与通用性)
  • HiSmartPerf使用WIFI方式连接Android机显示当前设备0.0.0.0无法ping通!设备和电脑连接同一网络,将设备保持亮屏重新尝试
  • antdv Modal的简单使用
  • Hive 创建事务表的方法