当前位置：首页 > ops >正文

【多模态】IMAGEBIND论文阅读

ops 2025/8/29 22:26:42

every blog every motto: Although the world is full of suffering， it is full also of the overcoming of it

0. 前言

IMAGEBIND 多模态论文梗概

IMAGEBIND是一种夸模态的神经网络，以图片为中心，联合六中模态的网络（图片、文字、音频、深度图、热力图、惯性测量单元）

1. 正文

1.1 梗概

一张照片可以将许多经历联系在一起——一张海滩的照片可以让我们想起海浪的声音、沙子的质地、微风，甚至激发一首诗的灵感。图像的这种“绑定”属性为学习视觉特征提供了许多监督来源，通过将它们与任何与图像相关的感官体验相结合。

之前的工作主要集中在image-text，或videoaudio and captions等少数几种模态。

而IMAGEBIND将每种模态和图片对齐。

理想情况是同一张图片找到和其对齐的其他模态，而这在实际中是不可获得的。

其他5种模态和图片对齐：
20250508135121

6中模型主要都是VIT类。

1.2 损失函数

20250508135903

上式为I和M的损失，I表示image,M表示其他模态的数据。

$q = f (I), k = g (M)$ ，其中 $f, g$ 表示深度网络。

$\tau$ 温度标量，用于控制softmax的平滑。
$j$ 表示不相关的pairs。

在实际中， $Loss = L_{I,M} + L_{M,I}$

1.3 涌现的对齐能力

在IMAGEBIND中，对于未出现的pairs涌现了对齐能力。如，只训练了(I,M1),和(I,M2)出现了(M1,M2)之前的对齐。

zero-shot: 在CLIP中，使用的image-text训练，使用text-prompts去证明zero-shot能力，
emergent zero-shot(涌现的零样本学习能力): 而在IMAGEBIND中，使用image-text和image-audio训练，IMAGEBIND可以用text prompts对audio进行分类，

1.4 应用

1.4.1 多模态嵌入空间算法

图片+音频–> 新的图片
20250508151747

1.4.2 text-based detector to audio-based

有基于文字的检测，升级到基于音频的检测。

在Detic中，是基于文字对图片中的物体进行检测，替换其中的CLIP为IMAGEBIND,实现audio-based的检测。

说明：

这里有点不确定，是基于一段狗吠的音频对图片中狗进行检测，还是“狗吠”这两个字用语音说出来对图片中的狗进行检测。
不管哪种，感觉都挺有意思的，随着技术的发展，不远的将来一定能实现。

20250508152202

1.5 消融实验

1.5.1 scaling image encoder

由于是以image为中心，所以比较一下image encoder网络对性能影响。
结果表明：更强的视觉网络，效果更好，甚至在非视觉模态中。

20250508144959

1.5.2 损失和网络结构

1). 损失参数 $\tau$

在深度图、音频、IMU数据分类中，固定 $\tau$ 效果更好。

除此以外，在depth,thermal, IMU数据训练中，更高的温度训练更好；audio中低温度更好。

2). 投影头

在两种模态中(SUN-D,ESC)，linear 好于MLP。

3). epoch

更大的epoch能够提高”涌现的零样本学习能力“(emergent zero-shot)

4). 数据增强

当对SUN RGB-D数据集的少量（图像，深度）对进行训练时，更强的增强有助于深度分类。然而，对于音频，强烈增强视频使任务过于具有挑战性，导致ESC显着下降34%。

5). Depth specific design choices

空间不对齐，降低性能。

6). Audio specific design choices

时间对齐的样本会带来更好的性能。

7). Capacity of the audio and depth encoders

较小的深度编码器可以提高性能，可能是因为（image, depth）数据集的大小相对较小。相反，我们观察到更大的音频编码器提高了性能，特别是当与高容量图像编码器配对时。

http://www.xdnf.cn/news/5379.html

相关文章：

数据分析基础：需要掌握的入门知识

python 实现sha加密

数字电子技术基础（五十七）——边沿触发器

用统计零花钱的例子解释：Shuffle 是啥？

【锂电池剩余寿命预测】SVM支持向量机锂电池剩余寿命预测（Pytorch完整源码和数据）

2025-05-11 项目绩效域记忆逻辑管理

保姆级教程|YOLO11改进】【卷积篇】【4】使用RFAConv感受野注意力卷积，重塑空间特征提取，助力高效提点

httpclient请求出现403

接口在函数参数和对象类型中的应用

C——猜数字游戏

Linux——MySQL内置函数与复合查询

【SaaS灾难恢复】跨云备份与快速重建机制

FastAPI实现JWT校验的完整指南

C++笔记6：数字字面量后缀和前缀总结

YOLO-World：基于YOLOv8的开放词汇目标检测

2050年的世界是怎样的？

Windows系统更新一键禁用：WindowsUpdateBlocker轻量级工具推荐

【高数上册笔记篇02】：数列与函数极限

vue中理解MVVM

12、电子电路设计与PCB布局组件 (概念) - /设计与仿真组件/pcb-layout-tool

C语言和Python在负数取余运算（%）上的差异

python实战项目69：基于Python爬虫的链家二手房数据采集方法研究

HTTP 和 WebSocket 的区别

vue3模版语法

HTML12：文本框和单选框

多源最短路径（Floyed）

【人工智能】微调魔法：释放大模型的个性化潜能

微机系统:第二章节:16位的intel8086处理器

嵌入式硬件篇---无线通信模块