CLIP中的被动学习
在CLIP模型的上下文中,“被动学习”(passive learning)特指直接利用互联网上自然存在、无需人工干预的文本数据作为训练信号,其核心含义包括:
-
数据来源的自然性
不依赖人工标注(如众包标注的"黄金标签"),而是直接使用互联网上已有的文本数据(如网页标题、图片描述等)。这些数据是用户自发产生的内容(UGC),而非为机器学习专门设计的格式。 -
无需主动干预的训练过程
与主动学习(active learning)形成对比:主动学习需要模型主动选择"最有价值"的样本进行标注,而CLIP的被动学习完全依赖现成数据,不涉及数据筛选、标注或人工反馈环节。 -
与无监督/自监督的区别
虽然都无需人工标注,但CLIP的被动学习强调利用自然语言作为隐式监督信号,而非传统无监督方法(如聚类)或自监督方法(如预测图像旋转角度)。这种监督信号天然存在于文本描述中,无需设计预训练任务。 -
可扩展性的体现
被动学习的优势在于:互联网文本数据体量庞大且持续增长,CLIP通过构建WIT数据集(4亿图文对)证明了这种数据源的可扩展性,远超传统标注数据集的规模限制。
具体在CLIP中的实现方式:
通过收集互联网上公开的(图像,文本)对(如社交媒体图片配文、网页图片标题等),将自然语言描述作为监督信号,训练模型理解视觉-语言对应关系。这种数据无需人工清洗或结构化处理,直接利用现成文本进行对比学习,体现了被动学习的核心思想。
与其他范式的对比:
- 有监督学习:需要人工标注的结构化标签(如ImageNet的类别标签)
- 自监督学习:通过设计预训练任务(如遮挡恢复)生成伪标签
- 被动学习(CLIP):直接利用自然语言中的语义关联作为监督信号