当前位置：首页 > news >正文

具身智能最有前景的方向之一“在线强化学习”新突破

news 2025/9/6 7:41:01

具身智能最有前景的方向之一“在线强化学习”新突破；Sergey Levine，热启动强化学习让机器人20分钟学会一个新任务

Physical Intelligence（PI）联合创始人、UC Berkeley 副教授、强化学习大牛 Sergey Levine 发布了一项新成果这是他和Paul Zhou、Andy Peng等人共同完成的研究：

Sergey Levine X 账号截图

热启动强化学习（WSRL）可以在不到 20 分钟内学会控制真实机器人！深度强化学习正变得非常快。从离线数据中热启动，加上高效的在线学习，正让现实世界的强化学习不仅实用，而且非常容易。

Sergey Levine X 账号截图

与 7 年前相比可以说是进步神速了，让大佬都不禁连发好几条 X。

在线强化学习为什么重要

想象一个机器人走进了你家厨房，它不是靠“背课本”学做饭，而是边看边问、边做边学。这种“现场学习”的能力，正是在线强化学习所赋予机器人的潜能。它让机器人不再只是被动地模仿人类经验，而是能主动探索、持续优化、在真实世界中不断进化。正因如此，在线 RL 已成为通往“类人智能”之路上不可忽视的研究核心。

在一些学者最新的讨论中，“在线强化学习”是高频出现的词汇：

Chelsea Finn：对于稳定性，我认为我们未来需要一种在线式的强化学习策略，能在部署中持续改进模型表现。

Wendy Zhu：我们应该从一开始就把人考虑进去，采用“在线学习”“人类在环”、“现实场景在环”的方式，直面机器人未来真正要解决的问题。

现有方法及其困境

现有方法：离线强化学习预训练 + 在线强化学习微调

让一个机器人学会一项新技能，比如泡咖啡，目前最流行的方法是“离线强化学习预训练 + 在线强化学习微调”。

预训练（Pre - training）：你先找来海量的、各式各样的机器人操作数据（比如成千上万小时的视频录像），让 AI 模型在这些“离线数据”中学习，掌握一些通用的物理世界知识和操作常识，比如，水温不能太高、咖啡豆要研磨均匀、注水要有节奏......这就像一个学生在进入专业领域前，先在图书馆里博览群书，打下坚实的知识基础。
微调（Fine - tuning）：然后，你把这个已经很“博学”的 AI 模型放到一个真实的咖啡机前，让它不断练习来学习泡咖啡这个具体任务，边自己冲边对照着教程复习。这就像学生毕业后，进入一个专门的实验室，通过动手实践来攻克一个特定的科研项目，但也不忘记回顾自己学过的知识。

现有方法的困境

按照目前主流的方法，AI 在进行在线强化学习微调时，仍然需要不断地回顾和学习那些庞大的离线“教科书”数据。如果不这样做，AI 模型在刚开始接触新任务时，会因为“水土不服”而表现急剧下滑，甚至完全忘记之前学到的知识，这种现象被称为“灾难性遗忘”（catastrophic forgetting）。

然而，总是带着全部的“旧数据”来进行强化学习微调，有两大弊端：

效率低下且昂贵：随着离线数据集越来越大，每次更新模型都要处理海量数据，这会耗费巨大的计算资源和时间，让微调过程变得异常缓慢和昂贵。
限制性能上限：持续依赖旧数据，可能会因为旧数据中的限制或“悲观主义”算法（一种防止 AI 在未知领域乱来的技术），反而限制了模型在真实环境中可能达到的最佳性能。

这让人们陷入两难：不带旧数据，模型会“学崩”；带着旧数据，又慢又受限。

核心问题：为什么“扔掉”旧数据会导致模型崩溃？

去掉离线数据带来的问题

是因为一个叫做“Q 值向下螺旋”（Downward Spiral）的现象。

这里的“Q 值”可以通俗地理解为 AI 对在某个状态下执行某个动作的“信心”或“价值预估”。

分布不匹配：AI 在离线数据中学到的情况（书本知识）和在线微调时遇到的真实情况（动手实践）存在差异，这被称为“分布不匹配”（distribution mismatch）。
过度悲观的开始：当 AI 用预训练好的模型去尝试新任务时，会遇到很多它没在“书本”上见过的状态。由于离线训练时算法的“保守性”或“悲观性”，AI 对这些未知情况的 Q 值（信心）会给出一个极低的、悲观的预估。
恶性循环：在学习更新时，这个极低的、悲观的 Q 值会作为“目标”来更新其他相关的 Q 值，导致新的 Q 值也变得更低。如此一来，就像滚雪球一样，AI 的“信心”全面崩溃，迅速忘记了预训练的成果，进入“向下螺旋”的状态。

离线数据在强化学习中，就像考场上的“开卷资料”。保留它，可以在微调时作为参照、提供稳定性；而一旦彻底不保留，就相当于“闭卷考试”下遇到陌生题型，AI 很容易低估自己，产生“我不会”的认知，陷入下行螺旋。

在不保留离线数据的情况下（蓝色曲线），多种主流算法（IQL, CQL, CalQL）的性能在微调开始后（图中虚线右侧）都出现了断崖式下跌，并且难以恢复。当保留离线数据时（橙色曲线），则表现正常。

解决办法：热启动强化学习 WSRL

所以，我们需要一个非常简洁且高效的解决方案，叫做“热启动强化学习”（WSRL，Warm - start Reinforcement Learning）。这个方法的核心思想是：我们不需要带上整个图书馆的书，只需要在进实验室前，参加一个简短的“岗前培训”或“热身”。

具体步骤如下：

初始化：像往常一样，使用离线数据预训练好一个 AI 模型（包含一个策略网络 π 和一个 Q 值网络 Q）。
热身阶段（Warmup Phase）：在正式开始在线微调之前，让预训练好的模型（此时其参数被“冻结”，不进行学习）与真实环境进行一小段（例如 5000 步）的交互，并把这些交互数据收集起来，存入一个空的“经验池”（Replay Buffer）。
抛弃旧数据，开始微调：热身结束后，彻底抛弃庞大的离线数据集。然后，AI 开始正式的在线微调，它只从“热身”阶段和后续新产生的交互数据中学习。

WSRL基本原理

这个“热身”阶段收集到的一小批数据，就像一座桥梁，完美地连接了离线学习和在线学习。它帮助 AI 的 Q 值（信心）在新环境中平稳地“重新校准”，有效避免了“向下螺旋”问题，从而让 AI 在不依赖旧数据的情况下也能稳定、快速地学习。

实验效果：轻装上阵，跑得更快更好

大量实验证明了 WSRL 的优越性。

在多种任务中，WSRL（蓝色曲线）在不保留离线数据的情况下，性能远超其他同样不保留数据的算法（如 CQL, IQL, CalQL 等）

完胜无数据保留的基线：在不使用离线数据的设定下，WSRL 的表现远超其他算法。其他算法性能崩溃，而 WSRL 能快速从微小的性能下跌中恢复，并持续提升。

“热身”至关重要：实验证明，如果没有这个“热身”阶段，WSRL 的性能会大打折扣，再次验证了“热身”是防止模型崩溃的关键。
甚至优于保留数据的方法：令人惊讶的是，即使和那些保留了全部离线数据进行微调的传统方法相比，WSRL（不保留数据）在很多任务上学习得更快，最终性能也更高。这说明，抛弃沉重的“数据包袱”确实能让 AI 学得更好。
真实机器人验证：在真实的“Franka 机械臂插孔”任务中，WSRL 仅用了18 分钟（不包括 7 分钟的热启动）就达到了 100%的成功率。而一个对比方法在 50 分钟后成功率依然为 0，充分展示了 WSRL 在现实世界中的巨大潜力和实用价值。

，时长00:58

视频：左侧是对比方法，右侧是 WSRL