当前位置：首页 > news >正文

CVPR2025丨VL2Lite：如何将巨型VLM的“知识”精炼后灌入轻量网络？这项蒸馏技术实现了任务专用的极致压缩

news 2025/8/29 16:06:05

关注gongzhonghao【CVPR顶会精选】

小模型（Small Models）通常指参数量较小、计算与存储成本更低的深度学习模型。近年来，它们在移动端部署、边缘计算和隐私保护等场景中快速发展，逐渐成为大模型的轻量化补充。

随着蒸馏、剪枝、量化等技术成熟，小模型在语音识别、图像分类等任务中已能接近甚至媲美大模型表现。但受限于容量和泛化能力，其在复杂推理、跨模态理解方面仍存在不足。今天小图给大家精选3篇CVPR有关小模型方向的论文，请注意查收！

论文一：A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs

方法：

文章首先通过实验证明了小型VLM的全局注意力图与大型VLM的一致性，基于此提出了SGP方法，它先在小型VLM中聚合所有层的注意力图以计算视觉标记的重要性分数，然后利用这些分数指导大型VLM中视觉标记的修剪，有效减少了大型VLM的计算负担。同时，文章还设计了SEE机制，通过评估小型VLM的预测置信度来决定是否提前终止推理，避免了对大型VLM的无谓调用，两者结合在多个基准测试中展现了优异的效率与性能平衡。

创新点：

首次发现小型VLM的全局注意力图与大型VLM高度相似，突破了以往仅依赖大型VLM单层注意力图的局限。
提出了Small VLM-Guided视觉标记修剪技术，利用小型VLM的全局注意力图对大型VLM的视觉标记进行重要性排序并修剪不重要的标记，实现了在极低标记保留率下的性能优化。
引入了Small VLM Early Exiting机制，进一步减少了不必要的计算，提升了整体的推理效率。

论文链接：

https://cvpr.thecvf.com/virtual/2025/poster/34456

图灵学术科研辅导

论文二：VL2Lite: Task-Specific Knowledge Distillation from Large Vision-Language Models to Lightweight Networks

方法：

文章首先定义了一个任务特定的分类损失函数，确保轻量级模型能够准确地完成特定任务。接着，通过视觉知识蒸馏损失函数，利用知识凝聚层将VLMs的高维特征压缩到适合轻量级模型的低维空间，同时保持特征间的关系。此外，通过语言知识蒸馏损失函数，进一步将VLMs的文本编码器输出与轻量级模型的视觉特征对齐，增强其语义理解能力。最终，将这三个损失函数整合到一个复合损失函数中，并在训练过程中动态调整它们的权重，以实现同时进行分类和知识蒸馏的目标。

创新点：

提出了直接从预训练的VLMs到轻量级模型的一阶段知识蒸馏方法，避免了传统两阶段知识蒸馏的复杂性和偏见传播。
创新性地结合了视觉和语言知识蒸馏，通过专门设计的损失函数和知识凝聚层，实现了更有效的知识迁移。
引入了文本提示工程来增强轻量级模型的语义理解能力，进一步提升了其在视觉任务上的表现。

论文链接：

https://cvpr.thecvf.com/virtual/2025/poster/33217

图灵学术科研辅导

论文三：BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices

方法：

文章首先对现有的动态分辨率方案进行了改进，通过引入放松的宽高比匹配方法，减少了图像放大带来的额外计算负担。接着，针对移动设备的硬件特性，设计了批量图像编码和流水线并行处理策略，以充分利用硬件的计算能力。此外，还采用了分块计算方法来处理长输入序列，平衡了并行处理和硬件性能之间的关系。最后，通过混合精度量化和解耦图像编码与指令处理的框架，进一步优化了模型在移动设备上的部署效率。