Sigmoid Loss for Language Image Pre-Training
引言
利用网络图像-文本对进行弱监督对比预训练,正逐渐取代基于大规模标注多类别数据集的预训练方法,成为获取通用计算机视觉主干网络的主流方案。其核心思想是通过配对数据同步学习图像与文本的对齐表征空间。开创性工作CLIP[36]和ALIGN[23]验证了该方案在大规模场景下的可行性,随后多家机构陆续发布了私有[59,13,21,49]与公开[40,6,15,7,41]的大型图文数据集。
此类模型的标准化预训练方案采用图像-文本对比目标函数:通过对齐匹配(正例)图文对的嵌入向量,同时确保无关(负例)图文对在嵌入空间中分离。该目标通过批级别基于softmax的对比损失实现,需对图像和文本两个维度分别归一化相似度分数。朴素softmax实现存在数值不稳定问题,通常需通过减去输入最大值进行稳定化处理[18],这要求对完整批次数据进行二次遍历。本文提出更简洁的替代方案——sigmoid损失函数:无需全批次操作,显著简化分布式损失实现并提升效率;更重要的是,其
我们通过多组实验对比sigmoid损失与标准softmax损失的性能。重点研究了sigmoid损失在两种主流图文学习框架(CLIP[36]和LiT[59])中的应用,分别命名为SigLIP(Sigmoid语言图像预训练)和SigLiT。实验发现:当批次规模小于16k时,sigmoid损失显著优于softmax损失;随着批次增大,差距逐渐缩小。sigmoid损失具有对称性、仅需单次遍历,且内存占用更低,这使得SigLiT模型能在百万级批次规模下成功训练。值得注意的是,无论softmax还是sigmoid,性能都会随批次增大而饱和——32k的合理批次规模已足以满足图文预训练需求,该结论在100+语言的多语言SigLIP训练中同样成立。
表1展示了中等规模TPUv4芯片需求的图文预训练配置。SigLiT效率惊人:仅需4块芯片1天训练即可在ImageNet上实现79.7%零样本准确率;SigLIP从头训练需32块TPUv4芯片5天达到73.4%零样本准确率,优于需256块TPUv3核心训练5-10天的FLIP[30]和CLIP[36]。微调SigLIP预训练视觉主干时,禁用主干网络权重衰减可获得更优结果(详见图4)。我们期望本研究能推动新兴的图文预训练领域向更易用方向发展。
相关工作
sigmoid损失的对比学习:早期工作[19]曾提出类似sigmoid损失用于无监督降维任务,但图文对比学习领域仍广泛依赖基于softmax的损失[46]。有监督分类任务中,sigmoid损失已被证明比softmax损失略具优势[3,51]。
对比式图文预训练:自CLIP[36]和ALIGN[23]将softmax对比学习[60,46,10,24]应用于大规模图文数据集后,该方向快速发展。这类模型在零样本迁移任务(分类/检索)中表现优异,后续研究证明其表征可有效支持微调[53,16]、线性回归[23]、目标检测[31]、语义分割[33]及视频任务[57]。
生成式图文预训练:除softmax对比预训练外,GIT[49]、SimVLM[50]和LEMON[21]成功采用生成式文本解码器进行预训练;CoCa[56]则在判别式CLIP/ALIGN框架中引入解码器,融合两类方法的优势;BLIP[28]进一步提出CapFilt方案,利用生成解码器创建优质描述,并通过判别模块过滤样本。该领域发展迅猛,现有综述[8]快速过时。
高效图文预训练:提升训练效率的研究较少。LiT[59]需预训练冻结的主干网络,FLIP[30]通过随机丢弃视觉token牺牲质量;BASIC[35]和LAION[52]探索大批次训练(分别达16k/160k),但需数百块芯片支持,前者还混合了私有分类数据集[35,55]。新型Lion优化器[12]声称能降低训练成本。
(注:保留文献索引编号以保持学术引用完整性,实际翻译时可选择转换为中文文献标注体系)