【深度学习新浪潮】视觉大模型在预训练方面有哪些关键进展?
近年来,视觉大模型在预训练领域取得了多项突破性进展,涵盖架构设计、多模态融合、数据利用效率及训练策略等多个维度。以下结合2024-2025年最新研究成果,从技术创新和应用突破两方面展开分析:
一、架构创新:突破分辨率与模态限制
-
超高分辨率预训练
伯克利与英伟达提出的PS3视觉编码器首次实现4K分辨率下的高效预训练。通过局部对比学习和动态区域采样,PS3仅需处理图像中显著区域,将计算复杂度从传统方法的二次增长降至线性,训练成本降低79倍。基于此构建的多模态模型VILA-HD在4KPro基准测试中,较Qwen2-VL提升3.2%准确率并实现3倍加速,首次解决了高清场景下的细节感知与效率平衡问题,为自动驾驶、工业检测等场景奠定基础。 -
纯视觉自回归模型
UC伯克利提出的LVM(Large Vision Model)完全摒弃自然语言,仅通过像素数据实现多任务推理。该模型将图像转换为视觉token序列,采用类似LLM的自回归预测机制,在16.4亿图像/视频帧上训练后,可通过prompt直接完成图像分类、视频预测、IQ测试等任务。其核心创新在于:- 视觉句子(Visual Sentence):统一语义分割、深度重建等标