当前位置：首页 > web >正文

VLA算法总结对比——RT1 / RT2 / Pi0 / Octo/ RDT / OpenVLA

web 2025/7/5 7:05:02

VLA算法总结对比——RT1 / RT2 / Pi0 / Octo/ RDT / OpenVLA

1. 方法简述
- 1.1 RT-1: Robotics Transformer for Real-World Control at Scale
- 1.2 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 1.3 Octo：An Open-Source Generalist Robot Policy
- 1.4 OpenVLA：OpenVLA: An Open-Source Vision-Language-Action Model
- 1.5 RDT：RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation
- 1.6 Pi0：π0: A Vision-Language-Action Flow Model for General Robot Control
2. 方法对比
- 2.1 数据集对比
- 2.2 模型架构对比
- 2.3 训练策略对比

本文主要针最近比较经典的VLA算法进行对比总结，暂不涉及到代码细节和实验细节上的展开，仅仅是从大面上掌握下目前VLA的一些思路和方法

1. 方法简述

1.1 RT-1: Robotics Transformer for Real-World Control at Scale

RT1模型是一个用于语言条件控制的Transformer模型，能高效执行700多个真实世界任务，具备显著的泛化能力，模型结构如下图所示：
在这里插入图片描述
模型特点：

基本构成：模型的输入是用USE编码的语言指令和6张300x300分辨率的图像序列；图像语言融合的方法是使用ImageNet预训练的EfficientNet-B3提取图像特征，通过FiLM机制嵌入语言信息，使图像特征与指令条件关联，然后使用使用TokenLearner压缩81个视觉Token为8个高信息量的Tokens；使用8层Decoder-only自注意力结构输出7个维度的手臂位姿和3个维度的底座位姿，每个维度离散为256个Bins，作为Token的预测；

训练数据：

13台移动机械臂在3个厨房场景采集的约130,000条成功演示，覆盖盖744条语言指令（每条由动词+名词组成）

训练方法：

损失函数是标准交叉熵损失，训练过程中在Decoder部分Transofrmer采用了因果掩码，

实验结果：

** 能力验证实验**：在四种评测标准上都远高于其他方法，其中Unseen Tasks指的是测试指令在训练集中从未出现过，但它的“组成元素”（动词/名词）在训练中见过；Distractors指的是在测试环境中加入与目标无关的多个物体；Backgrounds是指将任务放在不同背景环境中测试，例如新的厨房布局、光照变化、桌布图案等。这些测试都凸显了模型的泛化性。
异构数据吸收实验：RT-1 之前都是用 Everyday Robot（EDR）来训练的，但是 EDR 的数据没有Bin-picking的任务，Kuka的数据只有一个Bin-picking技能，下面这个实验证明了混合数据的有效性，在不影响EDR原任务的前提下（只下降2%），RT-1 居然在Bin-picking这个从没见过的任务上达到了 39% 成功率；
数据量与多样性消融实验：减少数据量会影响性能，但影响没那么大，例如只用37%数据，Unseen 泛化能力仍然能达到 57%。但是减少任务种类，影响比减少数据量还大，例如只删掉 25% 的任务种类，数据量几乎不变（只少了3%），导致Unseen Tasks 泛化性能从 76% → 67%，Distractor 成功率 83% → 42%（几乎砍半），如下表所示，

1.2 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

RT2首次提出将预训练的大规模视觉-语言模型（VLM）直接用于端到端的机器人控制任务，而非仅限于高层任务规划，提出将机器人数据与网络大规模视觉-语言数据联合微调，显著增强泛化能力，并成功将最大达55B参数的模型部署于TPU云端，实现1–3 Hz频率下的实时闭环控制。模型结构如下图所示：
在这里插入图片描述
模型特点：

基本构成：有两种模型架构可供选择，分别是（1）PaLI-X（参数规模：5B / 55B）：偏向于静态图文理解与生成任务，是传统视觉语言模型的延伸，输入图像 + 文本，输出文本Token。（2）PaLM-E（参数规模：12B）：为机器人控制等感知-决策场景设计的，可以将语言、视觉和动作融合在一个统一的Transformer架构中，具备端到端的感知到动作生成能力。
动作表示与编码机制：首先机器人控制的动作包括：Δx, Δy, Δz（末端执行器位置偏移）, Δroll, Δpitch, Δyaw（末端执行器姿态偏移），gripper extension（夹爪开合度），terminate（是否结束当前episode）供8个维度。机器人要执行一个动作，比如“把杯子放到桌子上”，其实背后是很多具体的数字控制命令——比如手臂怎么动，夹爪开合多少等等。但是我们现在用的是语言大模型，它原本是用来“说话”的，不懂直接控制机器人手臂的那些数字。怎么把“机器人动作”变成“大模型能理解的语言”呢？
RT2的解决办法是每一个维度（比如x方向位移）原来是一个小数，比如0.05，把每个数字离散成256个Bin，每个Bin编号为0到255（手往前动很少，对应编号可能是10，手往前动很多，对应编号可能是240），每个动作就变成了一串数字，就像变成了句子一样：“terminate 128 91 241 5 101 127”。在PaLi-X模型中，它本身的 Tokenizer 就包含了 0~999 的整数词，所以可以直接输出 0～255 ，不需要改动词表，在PaLM-E模型中，它的Tokenizer不是按整数设计的，没有 0～255 这些词，则借用Tokenizer里最冷门的 256个 Token作为输出。
为避免生成非法动作指令，RT2使用了Vocabulary Masking，在模型“输出每一个词”之前，先用一个Mask把那些“不该说的词”屏蔽掉！做机器人动作时，屏蔽掉“banana”、“please”、“is”、“green”这些词，只保留“0～255”。而做语言任务时，允许说所有词。Vocabulary Masking具体实现就是在输出每一个token之前，用一个“掩码”把不能说的词全部压成 -inf，这样模型就只能说动作指令

训练数据：视觉语言数据来自Internet的视觉问答（VQA）、图文对、图像描述等（数十亿规模token）。机器人数据来自RT-1数据集（Brohan et al., 2022），由13台机器人在办公厨房环境中17个月采集的轨迹。

训练方法：

联合微调：在联合训练时，RT-2 并不是先跑一批视觉问答,再跑一批机器人动作。而是每一个训练 batch 里同时采样来自 web 的视觉语言任务 + 机器人动作任务，这样的好处是避免模型忘记语言能力同时可以强化跨模态对齐。
链式思维提示：这个是在训练/微调中加入一种新的格式，原来模型学的是
```
Instruction: Bring me a drink.
Action: 1 128 127 133 144 102 99 255
```
加入 Chain-of-thought 后变成：
```
Instruction: Bring me a drink.
Plan: pick the 7up can because it's a drink.
Action: 1 128 127 133 144 102 99 255
```
这样模型在生成动作前会先“说出自己的想法”，能提升复杂语义理解和多步推理能力。

实验结果

泛化能力评估： RT-2 在标准任务上性能不逊于 RT-1，说明新结构未破坏已有能力，但是RT-2 明显泛化更强，尤其在“没见过的物体/背景/环境”中表现突出，如下表所示：
涌现能力评估：涌现能力指的是模型在训练的时候没有被明确教过某个能力或任务，但它却自己学会了，并且表现得很好。在RT2的论文中提到符号理解（“将苹果移动到数字3”）、推理能力（“放到与苹果同色的杯子中”）、人类识别（“将可乐递给戴眼镜的人”），RT2展现了这部分能力：

1.3 Octo：An Open-Source Generalist Robot Policy

在次之前机器人学习通常针对特定任务和机器人训练策略，缺乏通用性，导致每次都需从头训练。Octo试图解决该问题，提供一个完全开源的Transformer模型，能够在多种机器人平台、传感器配置和动作空间上灵活运行，并能高效微调以适应新任务。
在这里插入图片描述
模型特点

基本构成：模型由Tokenizer Module、Transformer Backbone、Diffusion Policy Head三部分构成，Tokenizer Module是将各类输入映射为统一的Token序列，输入Transformer，模态包括文本、图像、状态和相对位姿(w文本使用预训练的T5-Base（111M）模型编码为16个语言Token、图像用浅层CNN 处理后划分为Patch，再嵌入为Token：第三人称图像为256个Token，手腕相机图像为64个Token)，每种模态都会附带一个Modality Embedding，每个Token加上时间步位置编码，所有Token被concatenate为Transformer的输入序列。Transformer Backbone采用标准Transformer Encoder结构。Diffusion Policy Head用于从Transformer输出中生成连续动作，Diffusion Head是一个3层 MLP，包含256隐藏单元、残差连接和层归一化.。
输入除了语言指令外和可以是目标图像：目标图像（Goal Image）在 Octo 中被当作一种“观察输入”模态（Modality），和其他输入（语言指令、当前图像、状态等）一起转化成 Token作为输入送进Transformer主干。
输出控制维度灵活适配：由于Transformer输出是Token序列，将这些Token输入到Action head中，用于预测连续动作序列，不同机器人的动作空间（如末端位姿、关节位置、关节速度）仅需修改Action Head结构，Transformer主干保持完全不变，只需针对不同动作定义新的一层映射结构；

训练数据
Octo使用来自 Open X-Embodiment 的25个子集，约 80万段机器人演示数据。在训练前的预筛选策略包括（1）剔除不包含图像流的数据集；（2）剔除不使用相对末端位姿控制的数据；（3）剔除图像分辨率过低、任务过于小众或重复性太高的数据。在平衡重复性和多样性策略上：（1）“多样性高”的任务权重加倍（例如包含多物体交互、环境变化）；（2）“重复性高”的任务被下调权重（例如同一机器人反复完成同一操作）；（3）Fractal / Kuka / Bridge 数据集权重最高，各占17%，其他如Stanford Hydra、Language Table、Roboturk等占比从6%到0.1%不等。

训练方法：在数据增强方面：（1）Zero-padding：若某数据缺少相机视角通道，则自动补0填充，使输入维度统一；（2）Hindsight Goal Relabeling：从轨迹中后续任意时刻采样状态作为目标，制造更多目标图像配对；（3）随机遮蔽：每个训练样本中，随机遮蔽语言指令或目标图像，鼓励模型适配不同任务接口

实验结果：

零样本控制：Octo无需微调即可在多个真实机器人平台上直接执行任务，Octo比RT-1-X平均高出29%的成功率，Octo在WidowX和RT-1 Robot任务上表现接近RT-2-X，但参数仅为其千分之一，相比仅支持语言输入的RT系列，Octo支持目标图像（Goal Image）输入，在WidowX任务中目标图像比语言指令提升了25%的成功率。
少样本微调：Octo 只用少量演示数据（约100条）就能适应新的任务环境或机器人控制方式，且无需调整超参数，表现远超从零训练和其他视觉预训练模型。在表格中，带 * 或 † 的任务还引入了新传感器输入或新的控制模式，进一步验证 Octo 的泛化与适应能力。
设计消融实验：ViT架构优于ResNet在大规模多源数据训练中，Diffusion Action Head 显著优于传统MSE和离散分类，多样化数据源提升了跨机器人泛化能力。

1.4 OpenVLA：OpenVLA: An Open-Source Vision-Language-Action Model

当前机器人学习面临的关键挑战是泛化能力差，尤其在应对新的物体、场景或语言指令方面。而RT2又是闭源的，不利于社区研究和扩展。为此OpenVLA提出了一个开源、可扩展、支持高效微调的7B参数VLA模型。
在这里插入图片描述
模型特点

基本构成：OpenVLA的模型构架和RT2基本一致：使用DINOv2与SigLIP的双通道编码作为视觉编码器，增强空间与语义理解。基于LLaMA 2-7B作为语言模型骨干。输入Token序列由图像编码、语言指令、分隔符 [SEP] 等组成：输出目标为预测动作Token序列中的下一个Token（需要连续预测7个Token，才能构成一个完整的动作）；

训练数据：使用的主数据集是Open X-Embodiment Dataset，含有970,000条机器人操作演示。数据筛选策略包括：（1）仅保留具备第三人称摄像头视角和单臂操作的数据；（2）参考Octo数据混合策略，提高任务与场景多样性（多样性高的数据集被上调权重，冗余性高、单一任务或场景的数据集被下调或剔除）；（3）在训练后期剔除难以学习的数据（如DROID轨迹表现差的部分）。

训练方法：OpenVLA 本身并没有从头训练一个VLA 模型，而是基于Prismatic-7B VLM的模型（Prismatic由DinoV2 + SigLIP + LLaMA 2组成）进行“后训练”，后训练支持全量微调、LORA、冻结视觉编码器，SandWich Tuning（仅调最前+最后几层）等策略

实验结果

零样本性能评估：平均任务成功率（BridgeData V2）：OpenVLA 为 70.6%，RT-2-X 为 50.6%，RT-1-X和Octo均在20%左右,OpenVLA 展现出更强的语言理解、目标识别、抗干扰能力。
微调能力评估：OpenVLA 的 Few-shot Fine-tuning（小样本微调）方法主要分为两个层面：全参数微调（Full Fine-Tuning）和参数高效微调（Parameter-Efficient Fine-Tuning），在复杂任务（多物体、多语言、多样指令）上，OpenVLA 明显优于 Diffusion Policy 和 Octo，Diffusion Policy 在单一高精度任务上表现好，但泛化能力弱。
推理效率评估：Int4 量化不仅显存最少，还略高于 bfloat16 的成功率（71.9% vs 71.3%），这得益于语言模型对量化鲁棒以及动作预测本身可容忍一定精度抖动。Int8 成功率显著下降，作者怀疑是因为 HuggingFace 提供的Int8 推理引擎推理速度慢、导致超时或执行不稳定

1.5 RDT：RDT-1B: A Diffusion Foundation Model for Bimanual Manipulation

双臂操作（bimanual manipulation）对于机器人完成复杂任务至关重要，但现有方法要么依赖任务特定的原语，要么局限于小模型和小数据量，导致泛化能力有限。相比之下，自然语言处理和计算机视觉领域的基础模型已展现出强大的通用性，因此该论文提出构建一个通用的、具有泛化能力的双臂操作基础模型。
在这里插入图片描述
模型特点

基本构成：RDT将Diffusion Model和Transformer架构结合，并在该基础上做了如下三点改进：
（1）使用QKNorm + RMSNorm：QKNorm是对Query和Key向量进行归一化，避免注意力机制中点积结果过大，数值爆炸；RMSNorm即Root Mean Square Normalization，是一种更轻量但更稳定的替代LayerNorm的方案。在大模型训练中使用QKNorm + RMSNorm代替标准LayerNorm组合，提升了训练收敛性和精度表现。
（2）使用MLP Decoder：最终动作预测不再是单线性层，而是使用多层感知机（MLP）解码器。MLP可以更好地拟合复杂的动作分布，尤其适合控制类任务中动作变化剧烈、存在非线性模式的情况。
（3）使用Alternating Condition Injection ：当图像、语言、动作等多模态信息全部叠加在Transformer输入中，容易导致语言信号被淹没。解决方案是在Transformer的每一层，交替地注入图像编码、语言编码等条件信息。避免一个模态在多层中独占主导地位，提升模型对自然语言的敏感度与对图像语义的吸收能力。
统一动作空间：不同机器人（如UR5、Franka、ALOHA等）之间动作控制方式不同：有的控制关节速度，有的控制末端位置/姿态，甚至控制维度也不一致，具体进行对齐的方式是：
（1）将各机器人的动作映射为末端位姿 + 手指张合，无论原本控制的是Joint Space还是Cartesian Space，都通过正/逆运动学解算转换为末端控制。
（2）对动作增量进行归一化：位置增量 Δx 等被标准化为每步在 [-1, 1] 范围；旋转部分（欧拉角）标准化到每步旋转角度不超过 ±15 度；张合状态归一化到 0~1 之间。
（3）拼接左右臂动作，形成最终的 14维向量。

训练数据：论文中的训练数据被分为预训练数据和微调数据两个阶段：预训练数据是从46个机器人数据集中构建了包含超过100万条轨迹、21TB数据的多机器人预训练集，是目前规模最大的机器人操作数据集之一。微调数据使用ALOHA双臂机器人收集6000+条任务轨迹，涵盖300+任务、100+物体、15+场景。

训练方法：两阶段训练流程，阶段一是多机器人预训练，利用统一动作空间整合不同机器人的数据。阶段二是目标机器人微调，微调方式使用全量参数微调，使用自建高质量双臂任务数据集提高特定机器人能力。

实验结果

与SOTA模型对比，作者设置了如下实验从不同维度对模型性能进行对比，包括零样本泛化（Unseen Object/Scene）、指令理解（Instruction Following）、少样本学习（1-shot/5-shot）、精细操作能力（Dexterity）
对比结果如下，从结果上看RDT在各类任务上都取得了SOTA的结果：
在消融实验中，证明了大规模模型、大数据、扩散建模都是缺一不可的

1.6 Pi0：π0: A Vision-Language-Action Flow Model for General Robot Control

Pi0首个基于预训练视觉-语言模型（VLM）与flow matching联合构建的Vision-Language-Action（VLA）模型，专为处理高频连续动作生成。同时借鉴大模型训练经验，使用海量通用数据预训练，再使用高质量数据精调特定任务，显著提升性能与鲁棒性。模型结构如下图所示：
在这里插入图片描述
模型特点：

基本构成：使用 PaliGemma（一个3B参数的VLM）作为基础架构，动作输出通过 Flow Matching（变体的Diffusion方法，大约300M）生成连续动作Chunk。
Flow Matching：Flow Matching 学习的是一个条件向量场，学习向量场的本质是学习“如何朝目标前进”，而学习下一个位置只是记住“我该去哪里”，向量场提供了方向感和鲁棒性，位置预测则更容易“记忆轨迹”，泛化能力差。具体论文中的实现如下：
训练阶段对动作进行噪声扰动，从原始动作序列 $A_t$ 出发，按照一个线性加权方式加噪声，得到“中间动作” $A_t^\tau=\tau A_t+(1-\tau) \epsilon$ 其中 $\epsilon \sim \mathcal{N}(0, I)$ 是高斯噪声， $\tau \in[0,1]$ 是Flow Matching的时间步，Flow Matching的目标向量定义为 $u\left(A_t^\tau \mid A_t\right)=\epsilon-A_t$ 也就是说，模型需要学会如何从当前的“噪声动作”出发，朝着真实动作方向前进。用 L2 损失（或类似的距离）来让网络输出的Vector Field拟合这个真实方向： $\mathcal{L}_\tau(\theta)=\mathbb{E}_{p\left(A_t \mid o_t\right), q\left(A_A^\tau \mid A_t\right)}\left\|v_\theta\left(A_t^\tau, o_t\right)-u\left(A_t^\tau \mid A_t\right)\right\|^2$ 其中 $v_\theta$ 是模型输出的向量场，输入是当前“噪声动作”和观察 $O_t$ ，输出是一个方向向量。
模型推理时，从纯噪声开始： $A_0 \sim \mathcal{N}(0, I)$ 然后逐步按照模型输出的方向去“集成”动作： $A_{\tau+\delta}=A_\tau+\delta v_\theta\left(A_\tau, o_t\right)$ 这个过程非常高效，还用了注意力缓存（Cache Attention Key/Value）来加速。

训练数据：

数据规模：约10,000小时机器人示范数据，为目前最大机器人学习数据集之一
数据来源：自建数据：68个任务，7类机器人（单臂、双臂、移动平台等），包含大量高频控制和复杂操作。开源数据：包括OXE、Bridge v2、DROID等数据集。使用任务-机器人组合加权（n^0.43）缓解数据不平衡。动作和状态向量对齐为统一维度（最大为18维），不足部分补零。

训练方法：

预训练阶段：目标是训练一个通用机器人基础模型，具备跨任务、跨机器人平台的泛化能力，能在无需精调的情况下完成广泛的任务。使用了大规模、低质量但高度多样化的数据（来自 7类机器人平台、68种任务，总计 ~10,000小时机器人操作数据）。
后训练阶段：目标是进一步精细化模型行为，在具体任务上学会流畅、高效、稳定的动作序列，使用少量但高质量、高一致性、低噪声的数据（同一个任务，操作风格统一、动作顺序合理、成功率高，每个任务数据量在 5 小时（简单）~100+ 小时（复杂）不等）

实验结果

Zero-shot 评估：基础模型能力验证：任务尝尽包括T恤折叠、简单/复杂桌面清理、购物袋打包、从烤面包机取出吐司，每个任务运行10次，根据成功率评分。从结果看，π0在所有任务中性能最好，即使是较少训练步数的π0-parity也优于其他模型。π0-small也明显优于OpenVLA与Octo，显示了架构和Flow Matching方法的优势。
语言指令跟随实验：任务包括桌面清理、餐具摆放、购物打包。实验设定为3个类别：（1）Flat：只给定整体任务指令（如“清理桌子”）；（2）Human：由人工给出中间语言子指令。（3）HL：高阶VLM生成中间语言子指令。Language Following Rate衡量模型是否成功执行了指定的子任务（Segment），例如“把叉子放到托盘中”。Average Task Progress衡量模型在整个任务流程中完成了多少比例的总任务目标。从结果看π0显著优于π0-small，尤其在人类或VLM辅助下，表现进一步提升，说明VLM预训练提升了语言理解能力，对任务执行有实质帮助。
复杂多阶段任务能力评估：实验结论为在所有任务和数据量设置中，π0 的成功率都显著更高。在“困难任务”上，从头训练基本无法学到有效策略，而 π0 能够取得可观的成功率，显示出预训练提供了极强的泛化和初始化能力。

2. 方法对比

这里我们先整理下各个方法用到的数据集、模型构架、训练策略等进行简单对比

2.1 数据集对比

模型	数据来源与规模
RT-1	13 种机器人收集的 13 万条真实操作轨迹
RT-2	结合 RT-1 数据与大规模互联网视觉语言数据（如 VQA）
π0	预训练使用互联网视觉语言数据，微调使用 Open X-Embodiment 数据集和自建的 8 种机器人数据
Octo	来自 Open X-Embodiment 的 25 个子数据集，共 80 万条轨迹
RDT-1B	46 个多机器人数据集（超过 100 万条轨迹），另有 6000 条双臂操作数据用于微调
OpenVLA	Open X-Embodiment 数据集中的 97 万条轨迹

2.2 模型架构对比

模型	架构类型	输入模态	输出方式	参数规模
RT-1	Transformer	图像（FiLM EfficientNet）+ 语言指令	离散动作向量（11 维）	约 35M
RT-2	预训练 VLM（PaLI-X）	图像 + 语言指令	动作序列作为文本 token	55B
π0	Flow Matching + VLM	图像 + 语言指令	连续动作流（通过流匹配生成）	未公开
Octo	Transformer + Diffusion	图像 + 语言指令 / 目标图像 + 历史观测	动作通过扩散解码生成	27M（Small）/93M（Base）
RDT-1B	Diffusion Transformer	多视角图像 + 语言指令	64 步动作序列（扩散生成）	1.2B
OpenVLA	Prismatic VLM（LLaMA 2-7B + DINOv2 + SigLIP）	图像 + 语言指令	动作 token（可连续或离散）	7B

2.3 训练策略对比

模型	训练阶段与策略	训练优化技术
RT-1	单阶段训练，使用 TokenLearner 进行图像 token 压缩以加速推理	TokenLearner
RT-2	联合微调，结合机器人数据和互联网视觉语言数据，动作表示为文本 token	动作文本化
π0	两阶段训练：预训练使用多样但质量较低的数据，微调使用高质量的双臂数据	流匹配
Octo	预训练使用多任务数据，支持快速微调到新机器人和传感器配置	扩散解码
RDT-1B	预训练使用大规模多机器人数据，微调使用自建的双臂操作数据集	扩散 Transformer
OpenVLA	使用 Open X-Embodiment 数据，支持多种微调方式（全量、部分、LoRA）	Flash-Attention、FSDP、OFT

从上面对几种方法的总结和对比，这几种方法在方法论上都是差不多的，区别无非是模型的大小和数据量的多少，此外，我认为很有前景的另一个方向是类似于UniPi这样基于World Model生成Action的方式，这个方向似乎通向了强化学习，还有一个方向是类似于DexCap这样使用Human Centeric数据训练模型，也许从这两个方向上能突破对真实数据的依赖？这部分工作后续再单独总结学习，这个方向博主也是刚刚涉及，如有不对欢迎指正~

查看全文

http://www.xdnf.cn/news/3974.html