当前位置：首页 > java >正文

SmolVLA: A vision-language-action model for affordable and efficient robotics

java 2025/6/22 15:51:47

SmolVLA: A vision-language-action model for affordable and efficient robotics

核心目标：造一个“省钱又好用”的机器人 AI 大脑

机器人需要能看（视觉）、能理解指令（语言）、能做动作（动作）。现有的“视觉-语言-动作”模型（简称 VLA）虽然强大，但存在两大问题：

太胖（计算成本高）： 动不动几十亿参数，训练要超级计算机，部署要专业服务器。
太挑食（依赖特定昂贵数据）： 需要大量在特定高端机器人平台收集的数据，普通人或小团队玩不起。

SmolVLA 想解决的就是这两个痛点： 打造一个轻量级（Small）、高性能（Strong）、利用社区数据（Community-Driven） 且训练部署成本低廉（Affordable） 的 VLA 模型。

SmolVLA 的四大绝招：

1. 瘦身大法：轻量级架构设计（核心创新）

视觉信息“精炼”： 不像其他模型处理大量图像细节（token），SmolVLA 用“像素洗牌”等技术，只保留最关键的信息（每帧只用 64 个视觉 token），大大减少计算量。
VLM“偷懒”： 预训练好的视觉语言模型（VLM）是基础，但 SmolVLA 只取中间一半的层输出特征，而不是全部。实验发现这样性能损失很小，但计算量砍半！（省力又高效）
动作专家“小巧精致”： 负责根据视觉理解生成动作的模块（动作专家），设计得更小（隐藏层大小是 VLM 的 0.75 倍），并采用交叉注意力（CA）+ 自注意力（SA）交替的结构。CA 让动作关注视觉信息，SA 让动作序列内部更连贯平滑（动作不突兀），两者结合效果最好。
结果： 整个模型参数仅 4.5 亿 (其中 VLM 约 3.4 亿，动作专家约 1 亿)，比业界标杆 π0 (33 亿) 小很多倍！能在消费级 GPU 甚至 CPU 上训练和部署。

2. 吃百家饭：社区驱动的数据集（开源省钱）

数据来源： 不依赖昂贵专有数据，而是从 Hugging Face 等开源社区收集筛选了 481 个公开可用的机器人数据集，总共用了不到 3 万个任务片段（episodes），数据量比主流方法少一个数量级。
数据优化：
- 任务描述自动优化： 用现成的 VLM (如 Qwen2.5-VL) 自动重写模糊的任务指令，使其更清晰简洁（如“把红方块放进蓝盒子”）。
- 摄像头视角标准化： 不同数据集摄像头命名五花八门（如“images.laptop”），手动统一命名规则（如 OBS_IMAGE_1/2/3），方便模型理解不同视角。

3. 手脚麻利：异步推理栈（反应快）

痛点： 传统方式是机器人做完一组动作才处理新图像（开环），或者边处理图像边做动作（同步但可能卡顿），导致反应慢、动作不流畅。
异步妙招：
- 分工合作： 把“看”（图像感知+预测动作）和“做”（执行动作）拆开成两个独立线程。
- 动作队列： “看”的部分（Policy Server）提前预测好接下来的一组动作（比如 50 步），放入一个“动作队列”。
- 机器人客户端（Robot Client）： 只管从队列里取出动作执行。同时，它会在队列快空时，提前发送新图像给服务器去预测下一组动作，无缝衔接。
好处： 机器人动作执行流畅不停顿（即使“看”的部分还在算），响应速度提升 30%，在资源有限的设备（如树莓派、低端机器人）上也能跑得更快。

4. 效果硬核：性能不打折（小而强）

在模拟环境（LIBERO, Meta-World）和真实机器人（SO-100, SO-101）上做了大量实验。
对比对象： 包括更大的 VLA 模型（如 π0，OpenVLA）和传统方法（如 ACT）。
结果亮眼： 在多个任务上，只有 4.5 亿参数的 SmolVLA，性能媲美甚至超过了 33 亿参数的 π0！
- 例如：在 LIBERO 基准上平均成功率 87.3% (π0: 86.0%)；在真实机器人 SO-100 的多任务测试中平均成功率 78.3% (π0: 61.7%, ACT: 48.3%)。
- 异步推理带来了显著的响应速度提升和任务吞吐量翻倍。

SmolVLA 的核心价值：

省钱： 模型小，数据开源，训练成本低（约 3 万 GPU 小时），部署门槛低（消费级硬件）。
高效： 架构优化和异步推理使其计算快、响应快。
好用： 性能不输大模型，甚至在部分任务上更强。
开放： 完全开源（代码、模型、数据），促进机器人 AI 社区发展。

SmolVLA 是一个为“平民化”机器人 AI 设计的轻量级引擎，它用巧妙的设计在保持高性能的同时，大幅降低了成本和部署难度，让更多人能参与开发和创新。它证明了“小身材”也能有“大能量”。

http://www.xdnf.cn/news/13105.html

相关文章：

日拱一卒 | awk的基本操作

从0到1构建我的AI星逻系统： LLM智能控制 + Streamlit前端实战

达梦数据库EXISTS子查询实战指南

鸿蒙图片缓存（二）

Day09_刷题niuke20250609

riscv操作系统记录（一）

缓存一致性性的实现等价

Element Plus 表单(el-form)中关于正整数输入的校验规则

DeepSeek辅助实现的DuckDB copy to自定义函数

SHW汽车SAP系统拆分实战：24小时停机完成重组 | SNP全球案例

Brup Suite 2025.5简单暴力猜解攻击手记

安装便捷、维护省心，强力巨彩租赁屏助力视觉体验升级

Win系统权限提升篇计算机用户进程注入令牌窃取服务启动远程管理

基于51单片机的篮球计分器

C++ 时间处理指南：深入剖析＜ctime＞库

医疗器械研发、质量与注册：全流程指南（简）

nnUNet V2代码——图像增强（四）

Android Jetpack Compose开发纯自定义表盘【可用于体重，温度计等项目】

十一(3) 类，加深对拷贝构造函数的理解

突然无法调用scikit-learn、xgboost

创客匠人：以AI赋能创始人IP打造，开启知识变现新范式

【CANN全新升级】CANN创新MLAPO算子，DeepSeek模型推理效率倍增

力扣160.相交链表

ms12-020漏洞复现

问题复盘-当前日志组损坏问题

运算符之赋值运算符+运算符之比较运算符

ETLCloud可能遇到的问题有哪些？常见坑位解析

c# Autorest解析

【AI学习】三、AI算法中的向量