SmolVLA: A vision-language-action model for affordable and efficient robotics
SmolVLA: A vision-language-action model for affordable and efficient robotics
核心目标:造一个“省钱又好用”的机器人 AI 大脑
机器人需要能看(视觉)、能理解指令(语言)、能做动作(动作)。现有的“视觉-语言-动作”模型(简称 VLA)虽然强大,但存在两大问题:
- 太胖(计算成本高): 动不动几十亿参数,训练要超级计算机,部署要专业服务器。
- 太挑食(依赖特定昂贵数据): 需要大量在特定高端机器人平台收集的数据,普通人或小团队玩不起。
SmolVLA 想解决的就是这两个痛点: 打造一个轻量级(Small)、高性能(Strong)、利用社区数据(Community-Driven) 且训练部署成本低廉(Affordable) 的 VLA 模型。
SmolVLA 的四大绝招:
1. 瘦身大法:轻量级架构设计(核心创新)
- 视觉信息“精炼”: 不像其他模型处理大量图像细节(token),SmolVLA 用“像素洗牌”等技术,只保留最关键的信息(每帧只用 64 个视觉 token),大大减少计算量。
- VLM“偷懒”: 预训练好的视觉语言模型(VLM)是基础,但 SmolVLA 只取中间一半的层输出特征,而不是全部。实验发现这样性能损失很小,但计算量砍半!(省力又高效)
- 动作专家“小巧精致”: 负责根据视觉理解生成动作的模块(动作专家),设计得更小(隐藏层大小是 VLM 的 0.75 倍),并采用交叉注意力(CA)+ 自注意力(SA)交替的结构。CA 让动作关注视觉信息,SA 让动作序列内部更连贯平滑(动作不突兀),两者结合效果最好。
- 结果: 整个模型参数仅 4.5 亿 (其中 VLM 约 3.4 亿,动作专家约 1 亿),比业界标杆 π0 (33 亿) 小很多倍!能在消费级 GPU 甚至 CPU 上训练和部署。
2. 吃百家饭:社区驱动的数据集(开源省钱)
- 数据来源: 不依赖昂贵专有数据,而是从 Hugging Face 等开源社区收集筛选了 481 个公开可用的机器人数据集,总共用了不到 3 万个任务片段(episodes),数据量比主流方法少一个数量级。
- 数据优化:
- 任务描述自动优化: 用现成的 VLM (如 Qwen2.5-VL) 自动重写模糊的任务指令,使其更清晰简洁(如“把红方块放进蓝盒子”)。
- 摄像头视角标准化: 不同数据集摄像头命名五花八门(如“images.laptop”),手动统一命名规则(如 OBS_IMAGE_1/2/3),方便模型理解不同视角。
3. 手脚麻利:异步推理栈(反应快)
- 痛点: 传统方式是机器人做完一组动作才处理新图像(开环),或者边处理图像边做动作(同步但可能卡顿),导致反应慢、动作不流畅。
- 异步妙招:
- 分工合作: 把“看”(图像感知+预测动作)和“做”(执行动作)拆开成两个独立线程。
- 动作队列: “看”的部分(Policy Server)提前预测好接下来的一组动作(比如 50 步),放入一个“动作队列”。
- 机器人客户端(Robot Client): 只管从队列里取出动作执行。同时,它会在队列快空时,提前发送新图像给服务器去预测下一组动作,无缝衔接。
- 好处: 机器人动作执行流畅不停顿(即使“看”的部分还在算),响应速度提升 30%,在资源有限的设备(如树莓派、低端机器人)上也能跑得更快。
4. 效果硬核:性能不打折(小而强)
- 在模拟环境(LIBERO, Meta-World)和真实机器人(SO-100, SO-101)上做了大量实验。
- 对比对象: 包括更大的 VLA 模型(如 π0,OpenVLA)和传统方法(如 ACT)。
- 结果亮眼: 在多个任务上,只有 4.5 亿参数的 SmolVLA,性能媲美甚至超过了 33 亿参数的 π0!
- 例如:在 LIBERO 基准上平均成功率 87.3% (π0: 86.0%);在真实机器人 SO-100 的多任务测试中平均成功率 78.3% (π0: 61.7%, ACT: 48.3%)。
- 异步推理带来了显著的响应速度提升和任务吞吐量翻倍。
SmolVLA 的核心价值:
- 省钱: 模型小,数据开源,训练成本低(约 3 万 GPU 小时),部署门槛低(消费级硬件)。
- 高效: 架构优化和异步推理使其计算快、响应快。
- 好用: 性能不输大模型,甚至在部分任务上更强。
- 开放: 完全开源(代码、模型、数据),促进机器人 AI 社区发展。
SmolVLA 是一个为“平民化”机器人 AI 设计的轻量级引擎,它用巧妙的设计在保持高性能的同时,大幅降低了成本和部署难度,让更多人能参与开发和创新。它证明了“小身材”也能有“大能量”。