大模型驱动的具身智能: 发展与挑战--综述--中国电信人工智能研究院--2024.8.29
0. 前言
这篇综述是中文的,所以只会提取一些我个人之前不清楚的点。不会全部进行解释描述,如果想细致了解可以看原论文:
大模型驱动的具身智能: 发展与挑战
那么我的文章框架也会跟原文略有不同。
1. 传统框架与大模型的结合
具身智能的传统框架主要包括模仿学习 (imitation learning, IL) 、强化学习 (reinforcement learning, RL) 、模型预测控制 (model-predictive control, MPC) 等。
具体地, 模仿学习遵循监督学习的范式, 通过直接从专家轨迹数据中学习策略, 但往往受限于专家数据的规模和协变量偏移(covariate shift) 问题而容易产生较高的泛化误差;
强化学习通过在环境交互中试错来获得样本, 通过最大化奖励来获得策略和值函数, 但在机器人任务中受限于复杂的奖励设计和长时间的环境交互;
模型预测控制通过使用环境模型产生对未来策略执行情况的预测, 结合策略搜索方法获得当前最优的动作, 但依赖于对环境的先验知识和环境模型的泛化能力。
近年来, 许多研究尝试了大模型技术与上述框架的结合, 从而克服现有框架面临的问题。
具体地, 在模仿学习中, 大语言模型和视觉语言模型能够作为基础策略使智能体利用大模型对环境的理解和泛化能力, 同时, 大模型对任务的分解能够产生的任务短期目标来降低模仿学习的难度;
在强化学习中, 大模型能够根据对任务和场景的理解产生合适奖励函数来引导强化学习中价值函数和策略函数的学习, 同时强化学习能够作为大模型的基础策略和人类偏好对齐的工具, 引导策略的输出符合人类偏好;
在模型预测控制的框架下, 大模型能够利用从大量训练数据中获取的对物理世界的理解构建环境模型, 进而使智能体能够使用环境模型进行交互和策略搜索。
在模型预测控制 (MPC) 中, 环境模型可以使智能体无需与环境交互而得到下一步状态和奖励.
这样的决策过程与人类相似,人类在做出决策之前, 通常会思考做出这步决策会带来的后果, 根据不同 的后果来选择最有利的决策. 智能体同样可以利用环境模型来进行推演,从而选择出最优的动作
总之,如果将大模型驱动的具身智能算法进行分类, 主要包括大模型驱动的环境感知、任务规划、基础策略、奖励函数和数据生成等 5 个方面:
- 大模型驱动的环境感知从冗余的多传感器观测中进行特征抽取和信息融合, 能够提取对策略学习有用的信息, 从而使具身智能学习框架普遍受益
- 大模型对宏观任务的规划使用大模型的逻辑推理能力对复杂任务进行分解, 允许使用灵活的底层学习框架对分解后的任务进行策略学习
- 大模型驱动的基础策略可以与模仿学习框架进行结合并作为模型学习的初始策略, 在使用少量机器人的任务数据微调后, 大模型能够将通用的环境理解能力和特定的具身应用场景结合, 减少策略训练对机器人数据的需求量并提升策略的泛化能力
- 大模型驱动的奖励函数可与强化学习算法进行结合, 减少机器人场景中人为进行奖励函数设计的难度, 降低奖励函数设计对物理先验知识的依赖, 克服强化学习算法在机器人任务中面临的稀疏奖励问题
- 大模型驱动的数据生成根据学习框架的不同分为两类: 一方面, 大模型可作为环境模型生成智能体的未来轨迹预测, 与模型预测控制算法和基于模型的强化学习算法相结合进行策略搜索; 另一方面, 大模型可以生成机器人数据用于具身策略训练, 作用于无模型强化学习算法和模仿学习算法, 从而缓解机器人任务的数据缺乏问题.
2. 大模型驱动的具身智能研究中存在的 5 大挑战
- 大模型在特定具身场景中的适应问题.。从宏观上看, 大模型是广泛意义上的 “通才”,而在特定具身任务中往往需要能解决该任务的 “专才” 智能体, 如何使用大模型中涌现的通用知识在机器人任务中达到精确的物体操作和稳定的运动控制, 仍然是一项长期的挑战。
- 大模型策略和人类偏好的对齐问题。 具身任务的策略偏好和大模型中使用人类偏好往往有所不同, 例如, 面对具身智能规划问题, 大语言模型往往趋向于给出多样的、全面的回答, 而智能体执行任务需要准确的、可安全执行的指令分解。如何将大模型能力和人类偏好在具身智能任务中进行对齐是一项重要的研究问题。
- 具身策略的跨域泛化问题。大模型能够对不同的任务指令进行解析, 对多样化的视觉场景进行识别。然而, 具身智能同时面临着跨域泛化的难题, 如环境参数改变、机器人动力学改变, 跨形态学实体的泛化等机器人特有的问题, 目前大模型尚不具备直接解决问题的能力.
- 大模型驱动多智能体协作的能力。在解决复杂任务中往往需要多个智能体进行协作, 其中涉及到的任务分配、合作博弈、沟通反馈等传统多智能体合作问题在大模型背景下缺乏相关研究, 如何使大模型驱动多智能体进行高效协作在未来是重要的研究问题。(Helix两台协作)
- 大模型具身策略的决策实时性问题.。机器人策略在执行过程中环境观测是快速变化的, 具身策略需要保持较高的决策频率. 而大模型在进行单次推理时需要较高的计算代价, 如何解决大模型在规划和决策时的实时性是大模型在实体机器人应用的重要问题。
3. 具身系统
具身智能系统的基本结构如图 3 所示, 主要包括实体、任务、环境三个部分.
其中, 具身实体是系统的核心, 主要包括机器人、传感器、执行器等部分. 在特定任务中, 机器人通过传感器获取对环境的感知, 随后由具身智能算法产生当前合适的动作, 将动作传输给执行器, 执行器产生底层机器人指令与环境进行交互, 获得环境的反馈和更新后的场景感知信息并循环进行上述过程。
机械臂是最为常见的具身实体类型, 用来执行物体操作和抓取等任务。
常用的机械臂类型包括 Franka, xArm, Sawyer, Kuka, UR5 等。针对常用的机械臂类型, 研究人员开发了许多高效率的仿真平台, 例如 MuJoCo, Deepmind Control Suite,Franka Kitchen , RoboSuite , ManiSkill 等。
仿真环境提供了物理仿真和环境渲染的功能, 前者通过机械臂自身的物理结构进行动力学转移的数学模型构建, 后者通过图像渲染等工具获得机械臂及其周围环境的 2D/3D 观测用于机器学习算法的训练。(环境渲染用物理仿真输出的信息渲染环境)
具体的形态有:
- 四足机器人可以在复杂地形条件下进行稳定行走、奔跑、跳跃和避障等任务,宇树科技开发的 Aliengo, Go1, A1 等。
- 移动机器人拓展了固定机械臂的使用场景, 与固定底座的机械臂相比, 移动机器人通过可移动的底座进行运动, 随后在自主选择的场景下执行抓取和物体操作任务。斯坦福大学提出的 Mobile ALOHA 移动机器人以低廉的成本和复杂的操作能力受到广泛关注。
- 灵巧手是一种新兴的具身实体类型, 用来执行复杂的灵巧操作任务. 常用的灵巧手类型包括 Adroit hand, Allegro, Shandow Hand, Realman Hand 等
- 人形机器人(十分火热啊)
目前, 仿真环境的发展仍然十分迅速, 英伟达公司近期开发的 Isaac-sim 通过和 CUDA 和英伟达显卡的高度耦合, 能够通过硬件加速和高速并行对复杂的动力学模型进行快速仿真, 包括四足机器人、人形机器人等。此外, 现有仿真器对复杂柔性物体、流体、触觉传感器的仿真仍然存在不足, 同时仿真器环境和真实环境仍然存在较大的区别, 在未来仍然有很大的发展空间。
4. 仿真环境的数据生成
在使用世界模型中编码的知识进行数据生成之外, 大模型可以借助现有的仿真环境进行自动化的环境生成和数据采集. 大语言模型的使用可以大大提升任务的多样性, 降低任务仿真环境编写的难度,提升机器人数据的多样性.
GenSim 框架 是 MIT 提出使用大语言模型进行自动任务提出、自动环境构造、自动任务解决、自动数据采集的全流程框架.。
- 首先, 大语言模型首先根据简短的任务描述和任务需求来产生相应任务的仿真场景代码搭建, 同时提供了一套自动化的流程来验证仿真环境的可行性并进行迭代的修正.
- 其次, 根据不同任务生成的仿真环境构建一个高质量大模型生成的任务库, 用于在构建新任务时进行检索和反馈优化.
- 随后, 根据任务搭建的流程可以从中采集大量专家数据, 在现有模仿学习架构的基础上训练模仿学习策略
GenSim 的不足之处是仅面向 Ravens 仿真器中的机械臂抓取任务。
RoboGen 框架 进一步提出更为通用的仿真环境生成器, 可以在机械臂、移动机器人、四足机器人、灵巧手等主流的具身实体上生成仿真环境.
- 首先, RoboGen 使用现有仿真环境中存在的物体, 大语言模型根据对物体功能及如何进行交互的理解来提出有意义的任务;
- 随后, 大模型根据任务中需要的场景和目标, 通过调用仿真器底层函数来搭建符合该任务描述的仿真环境;
- 大模型对任务进行分解, 对子任务选择强化学习、模仿学习、轨迹优化等算法对任务进行求解, 最终产生能够解决不同任务的策略和数据
原文的内容非常丰富,我这里实在无法展开了,只能浅浅的展示一些我个人暂不清楚的点。