当前位置: 首页 > java >正文

SmolVLA: A vision-language-action model for affordable and efficient robotics

SmolVLA: A vision-language-action model for affordable and efficient robotics

核心目标:造一个“省钱又好用”的机器人 AI 大脑

机器人需要能看(视觉)、能理解指令(语言)、能做动作(动作)。现有的“视觉-语言-动作”模型(简称 VLA)虽然强大,但存在两大问题:

  • 太胖(计算成本高): 动不动几十亿参数,训练要超级计算机,部署要专业服务器。
  • 太挑食(依赖特定昂贵数据): 需要大量在特定高端机器人平台收集的数据,普通人或小团队玩不起。

SmolVLA 想解决的就是这两个痛点: 打造一个轻量级(Small)高性能(Strong)利用社区数据(Community-Driven)训练部署成本低廉(Affordable) 的 VLA 模型。

SmolVLA 的四大绝招:

1. 瘦身大法:轻量级架构设计(核心创新)

  • 视觉信息“精炼”: 不像其他模型处理大量图像细节(token),SmolVLA 用“像素洗牌”等技术,只保留最关键的信息(每帧只用 64 个视觉 token),大大减少计算量。
  • VLM“偷懒”: 预训练好的视觉语言模型(VLM)是基础,但 SmolVLA 只取中间一半的层输出特征,而不是全部。实验发现这样性能损失很小,但计算量砍半!(省力又高效)
  • 动作专家“小巧精致”: 负责根据视觉理解生成动作的模块(动作专家),设计得更小(隐藏层大小是 VLM 的 0.75 倍),并采用交叉注意力(CA)+ 自注意力(SA)交替的结构。CA 让动作关注视觉信息,SA 让动作序列内部更连贯平滑(动作不突兀),两者结合效果最好。
  • 结果: 整个模型参数仅 4.5 亿 (其中 VLM 约 3.4 亿,动作专家约 1 亿),比业界标杆 π0 (33 亿) 小很多倍!能在消费级 GPU 甚至 CPU 上训练和部署。

2. 吃百家饭:社区驱动的数据集(开源省钱)

  • 数据来源: 不依赖昂贵专有数据,而是从 Hugging Face 等开源社区收集筛选了 481 个公开可用的机器人数据集,总共用了不到 3 万个任务片段(episodes),数据量比主流方法少一个数量级
  • 数据优化:
    • 任务描述自动优化: 用现成的 VLM (如 Qwen2.5-VL) 自动重写模糊的任务指令,使其更清晰简洁(如“把红方块放进蓝盒子”)。
    • 摄像头视角标准化: 不同数据集摄像头命名五花八门(如“images.laptop”),手动统一命名规则(如 OBS_IMAGE_1/2/3),方便模型理解不同视角。

3. 手脚麻利:异步推理栈(反应快)

  • 痛点: 传统方式是机器人做完一组动作才处理新图像(开环),或者边处理图像边做动作(同步但可能卡顿),导致反应慢、动作不流畅
  • 异步妙招:
    • 分工合作: 把“看”(图像感知+预测动作)和“做”(执行动作)拆开成两个独立线程
    • 动作队列: “看”的部分(Policy Server)提前预测好接下来的一组动作(比如 50 步),放入一个“动作队列”。
    • 机器人客户端(Robot Client): 只管从队列里取出动作执行。同时,它会在队列快空时,提前发送新图像给服务器去预测下一组动作,无缝衔接
  • 好处: 机器人动作执行流畅不停顿(即使“看”的部分还在算),响应速度提升 30%,在资源有限的设备(如树莓派、低端机器人)上也能跑得更快。

4. 效果硬核:性能不打折(小而强)

  • 模拟环境(LIBERO, Meta-World)和真实机器人(SO-100, SO-101)上做了大量实验。
  • 对比对象: 包括更大的 VLA 模型(如 π0,OpenVLA)和传统方法(如 ACT)。
  • 结果亮眼: 在多个任务上,只有 4.5 亿参数的 SmolVLA,性能媲美甚至超过了 33 亿参数的 π0
    • 例如:在 LIBERO 基准上平均成功率 87.3% (π0: 86.0%);在真实机器人 SO-100 的多任务测试中平均成功率 78.3% (π0: 61.7%, ACT: 48.3%)。
    • 异步推理带来了显著的响应速度提升和任务吞吐量翻倍

SmolVLA 的核心价值:

  • 省钱: 模型小,数据开源,训练成本低(约 3 万 GPU 小时),部署门槛低(消费级硬件)。
  • 高效: 架构优化和异步推理使其计算快、响应快
  • 好用: 性能不输大模型,甚至在部分任务上更强。
  • 开放: 完全开源(代码、模型、数据),促进机器人 AI 社区发展。

SmolVLA 是一个为“平民化”机器人 AI 设计的轻量级引擎,它用巧妙的设计在保持高性能的同时,大幅降低了成本和部署难度,让更多人能参与开发和创新。它证明了“小身材”也能有“大能量”。

http://www.xdnf.cn/news/13105.html

相关文章:

  • 日拱一卒 | awk的基本操作
  • 从0到1构建我的AI星逻系统: LLM智能控制 + Streamlit前端实战
  • 达梦数据库EXISTS子查询实战指南
  • 鸿蒙图片缓存(二)
  • Day09_刷题niuke20250609
  • riscv操作系统记录(一)
  • 缓存一致性性的 实现等价
  • Element Plus 表单(el-form)中关于正整数输入的校验规则
  • DeepSeek辅助实现的DuckDB copy to自定义函数
  • SHW汽车SAP系统拆分实战:24小时停机完成重组 | SNP全球案例
  • Brup Suite 2025.5简单暴力猜解攻击手记
  • 安装便捷、维护省心,强力巨彩租赁屏助力视觉体验升级
  • Win系统权限提升篇计算机用户进程注入令牌窃取服务启动远程管理
  • 基于51单片机的篮球计分器
  • C++ 时间处理指南:深入剖析<ctime>库
  • 医疗器械研发、质量与注册:全流程指南(简)
  • nnUNet V2代码——图像增强(四)
  • Android Jetpack Compose开发纯自定义表盘【可用于体重,温度计等项目】
  • 十一(3) 类,加深对拷贝构造函数的理解
  • 突然无法调用scikit-learn、xgboost
  • 创客匠人:以AI赋能创始人IP打造,开启知识变现新范式
  • 【CANN全新升级】CANN创新MLAPO算子,DeepSeek模型推理效率倍增
  • 力扣160.相交链表
  • ms12-020漏洞复现
  • TJCTF 2025
  • 问题复盘-当前日志组损坏问题
  • 运算符之赋值运算符+运算符之比较运算符
  • ETLCloud可能遇到的问题有哪些?常见坑位解析
  • c# Autorest解析
  • 【AI学习】三、AI算法中的向量