具身智能最有前景的方向之一“在线强化学习”新突破
具身智能最有前景的方向之一“在线强化学习”新突破;Sergey Levine,热启动强化学习让机器人20分钟学会一个新任务
Physical Intelligence(PI)联合创始人、UC Berkeley 副教授、强化学习大牛 Sergey Levine 发布了一项新成果这是他和Paul Zhou、Andy Peng等人共同完成的研究:
Sergey Levine X 账号截图
热启动强化学习(WSRL)可以在不到 20 分钟内学会控制真实机器人!深度强化学习正变得非常快。从离线数据中热启动,加上高效的在线学习,正让现实世界的强化学习不仅实用,而且非常容易。
Sergey Levine X 账号截图
与 7 年前相比可以说是进步神速了,让大佬都不禁连发好几条 X。
在线强化学习为什么重要
想象一个机器人走进了你家厨房,它不是靠“背课本”学做饭,而是边看边问、边做边学。这种“现场学习”的能力,正是在线强化学习所赋予机器人的潜能。它让机器人不再只是被动地模仿人类经验,而是能主动探索、持续优化、在真实世界中不断进化。正因如此,在线 RL 已成为通往“类人智能”之路上不可忽视的研究核心。
在一些学者最新的讨论中,“在线强化学习”是高频出现的词汇:
Chelsea Finn:对于稳定性,我认为我们未来需要一种在线式的强化学习策略,能在部署中持续改进模型表现。
Wendy Zhu:我们应该从一开始就把人考虑进去,采用“在线学习”“人类在环”、“现实场景在环”的方式,直面机器人未来真正要解决的问题。
现有方法及其困境
现有方法:离线强化学习预训练 + 在线强化学习微调
让一个机器人学会一项新技能,比如泡咖啡,目前最流行的方法是“离线强化学习预训练 + 在线强化学习微调”。
-
预训练(Pre - training):你先找来海量的、各式各样的机器人操作数据(比如成千上万小时的视频录像),让 AI 模型在这些“离线数据”中学习,掌握一些通用的物理世界知识和操作常识,比如,水温不能太高、咖啡豆要研磨均匀、注水要有节奏......这就像一个学生在进入专业领域前,先在图书馆里博览群书,打下坚实的知识基础。
-
微调(Fine - tuning):然后,你把这个已经很“博学”的 AI 模型放到一个真实的咖啡机前,让它不断练习来学习泡咖啡这个具体任务,边自己冲边对照着教程复习。这就像学生毕业后,进入一个专门的实验室,通过动手实践来攻克一个特定的科研项目,但也不忘记回顾自己学过的知识。
现有方法的困境
按照目前主流的方法,AI 在进行在线强化学习微调时,仍然需要不断地回顾和学习那些庞大的离线“教科书”数据。如果不这样做,AI 模型在刚开始接触新任务时,会因为“水土不服”而表现急剧下滑,甚至完全忘记之前学到的知识,这种现象被称为“灾难性遗忘”(catastrophic forgetting)。
然而,总是带着全部的“旧数据”来进行强化学习微调,有两大弊端:
-
效率低下且昂贵:随着离线数据集越来越大,每次更新模型都要处理海量数据,这会耗费巨大的计算资源和时间,让微调过程变得异常缓慢和昂贵。
-
限制性能上限:持续依赖旧数据,可能会因为旧数据中的限制或“悲观主义”算法(一种防止 AI 在未知领域乱来的技术),反而限制了模型在真实环境中可能达到的最佳性能。
这让人们陷入两难:不带旧数据,模型会“学崩”;带着旧数据,又慢又受限。
核心问题:为什么“扔掉”旧数据会导致模型崩溃?
去掉离线数据带来的问题
是因为一个叫做“Q 值向下螺旋”(Downward Spiral)的现象。
这里的“Q 值”可以通俗地理解为 AI 对在某个状态下执行某个动作的“信心”或“价值预估”。
-
分布不匹配:AI 在离线数据中学到的情况(书本知识)和在线微调时遇到的真实情况(动手实践)存在差异,这被称为“分布不匹配”(distribution mismatch)。
-
过度悲观的开始:当 AI 用预训练好的模型去尝试新任务时,会遇到很多它没在“书本”上见过的状态。由于离线训练时算法的“保守性”或“悲观性”,AI 对这些未知情况的 Q 值(信心)会给出一个极低的、悲观的预估。
-
恶性循环:在学习更新时,这个极低的、悲观的 Q 值会作为“目标”来更新其他相关的 Q 值,导致新的 Q 值也变得更低。如此一来,就像滚雪球一样,AI 的“信心”全面崩溃,迅速忘记了预训练的成果,进入“向下螺旋”的状态。
离线数据在强化学习中,就像考场上的“开卷资料”。保留它,可以在微调时作为参照、提供稳定性;而一旦彻底不保留,就相当于“闭卷考试”下遇到陌生题型,AI 很容易低估自己,产生“我不会”的认知,陷入下行螺旋。
在不保留离线数据的情况下(蓝色曲线),多种主流算法(IQL, CQL, CalQL)的性能在微调开始后(图中虚线右侧)都出现了断崖式下跌,并且难以恢复。当保留离线数据时(橙色曲线),则表现正常。
解决办法:热启动强化学习 WSRL
所以,我们需要一个非常简洁且高效的解决方案,叫做“热启动强化学习”(WSRL,Warm - start Reinforcement Learning)。这个方法的核心思想是:我们不需要带上整个图书馆的书,只需要在进实验室前,参加一个简短的“岗前培训”或“热身”。
具体步骤如下:
-
初始化:像往常一样,使用离线数据预训练好一个 AI 模型(包含一个策略网络
π
和一个 Q 值网络Q
)。 -
热身阶段(Warmup Phase):在正式开始在线微调之前,让预训练好的模型(此时其参数被“冻结”,不进行学习)与真实环境进行一小段(例如 5000 步)的交互,并把这些交互数据收集起来,存入一个空的“经验池”(Replay Buffer)。
-
抛弃旧数据,开始微调:热身结束后,彻底抛弃庞大的离线数据集。然后,AI 开始正式的在线微调,它只从“热身”阶段和后续新产生的交互数据中学习。
WSRL基本原理
这个“热身”阶段收集到的一小批数据,就像一座桥梁,完美地连接了离线学习和在线学习。它帮助 AI 的 Q 值(信心)在新环境中平稳地“重新校准”,有效避免了“向下螺旋”问题,从而让 AI 在不依赖旧数据的情况下也能稳定、快速地学习。
实验效果:轻装上阵,跑得更快更好
大量实验证明了 WSRL 的优越性。
在多种任务中,WSRL(蓝色曲线)在不保留离线数据的情况下,性能远超其他同样不保留数据的算法(如 CQL, IQL, CalQL 等)
-
完胜无数据保留的基线:在不使用离线数据的设定下,WSRL 的表现远超其他算法。其他算法性能崩溃,而 WSRL 能快速从微小的性能下跌中恢复,并持续提升。
-
“热身”至关重要:实验证明,如果没有这个“热身”阶段,WSRL 的性能会大打折扣,再次验证了“热身”是防止模型崩溃的关键。
-
甚至优于保留数据的方法:令人惊讶的是,即使和那些保留了全部离线数据进行微调的传统方法相比,WSRL(不保留数据)在很多任务上学习得更快,最终性能也更高。这说明,抛弃沉重的“数据包袱”确实能让 AI 学得更好。
-
真实机器人验证:在真实的“Franka 机械臂插孔”任务中,WSRL 仅用了18 分钟(不包括 7 分钟的热启动)就达到了 100%的成功率。而一个对比方法在 50 分钟后成功率依然为 0,充分展示了 WSRL 在现实世界中的巨大潜力和实用价值。
,时长00:58
视频:左侧是对比方法,右侧是 WSRL
重要意义
快速实现真机强化学习有什么用呢?
当这项技术成熟后,很快,我们就可以买一台机器人,然后花 20 分钟让它学会在我们自己的真实的、特定的场景中完成某一项任务啦。
有用吗?有......什么,你说也没什么用?
那必须抛出下面这个更重要的意义了。大家都知道现在机器人的瓶颈就是缺少大规模真实世界的机器人数据用来训练更好的机器人模型,这是一个先有鸡还是先有蛋的问题。
原文链接:具身智能最有前景的方向之一“在线强化学习”新突破;Sergey Levine,热启动强化学习让机器人20分钟学会一个新任务