多模态学习笔记
在模态对齐任务中,同一时刻不同类型的数据(模态)需要做好对齐,才能更好的感知内容,下面对其常见的多模态对齐任务进行如下总结:
(1)文本图像
图像和文本特征提取后的对齐方法主要分为两类:基于对比学习的方法和基于跨模态注意力的方法。以下是它们的细化说明及具体实现流程:
1. 基于对比学习的方法
核心思想
通过构建正负样本对,在共享嵌入空间中拉近匹配的图像-文本对(正样本),推远不匹配的对(负样本),实现全局特征对齐。
具体流程
2. 基于跨模态注意力的方法
核心思想
通过交叉注意力机制(Cross-Attention)ÿ