CLIP,BLIP,SigLIP技术详解
以下是针对CLIP、BLIP、SigLIP等技术的综合分析报告,结合其核心原理、技术演进及优缺点对比:
1. CLIP(Contrastive Language-Image Pre-training)
核心原理
通过对比学习对齐图像与文本特征,在共享嵌入空间中计算图文相似度。训练时使用InfoNCE损失函数,最大化正样本对的相似度,最小化负样本对相似度。
技术特点:
- 双塔结构:图像编码器(ViT/ResNet) + 文本编码器(Transformer)。
- 零样本能力:无需微调即可泛化至新任务(如:
a photo of {label}
模板分类)。
优点:
✅ 强泛化性:在开放词汇识别、跨模态检索等任务中表现优异。
✅ 多模态对齐基础:成为后续模型(如LLaVA、PaliGemma)的视觉编码器。
缺点:
❌ 训练成本高:需超大Batch Size(数万级)和显存,通信开销大。
❌ 细粒度对齐弱:全局特征忽略局部细节,易受噪声干扰(如FG-CLIP论文指出的“视觉近视”问题)。
❌ 文本长度受限:仅支持77个Token,难以处理长文本描述。