深度学习论文: FastVLM: Efficient Vision Encoding for Vision Language Models
深度学习论文: FastVLM: Efficient Vision Encoding for Vision Language Models
FastVLM: Efficient Vision Encoding for Vision Language Models
PDF: https://www.arxiv.org/abs/2412.13303
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks
1 概述
在视觉语言模型(VLM)中,提升输入图像分辨率是增强模型性能的关键,尤其在富文本图像理解任务中尤为显著。然而,主流视觉编码器如视觉 Transformer(ViT)在高分辨率场景下,因标记数量爆炸式增长和编码延迟居高不下而效率骤降。针对不同操作分辨率,VLM 视觉编码器的优化可聚焦于两大核心维度:降低编码延迟,以及最小化传递给大型语言模型&#