Nature Machine Intelligence 基于强化学习的磁性微型机器人自主三维位置控制
文章概述在该论文中,来自韩国大邱庆北科学技术研究院与苏黎世联邦理工学院的研究团队提出了一种基于强化学习(RL)的磁微机器人三维位置自主控制方法。先在仿真环境训练RL智能体,再转至物理电磁驱动系统微调。采用四步训练法减少训练时间、提高精度;与PID控制器对比,该方法更准确高效。还结合路径规划算法实现全自主控制,在模拟脑动脉和不同环境中验证了方法的有效性。基于强化学习的磁微机器人控制方法无需环境先验知识,通过四步训练法可有效控制微机器人位置。该方法在准确性、效率和适应性上优于PID控制器,结合路径规划算法可实现全自主导航,为磁微机器人控制提供了有效解决方案。 研究思路由于当前控制方法多基于均匀磁场假设,对机器人属性和环境变化敏感,缺乏通用性和适应性,并且传统方法存在建模复杂、延迟明显、对环境变化鲁棒性差等问题,所以文章提出了基于强化学习的三维位置自主控制方法。
深度学习控制原理在一个工作空间内输入微机器人当前位置(PMR)和目标位置(PT),深度学习一种策略,根据环境的非线性动力学为线圈产生最优电流。将初始状态输入到策略中;轨迹是一系列虚拟目标位置。根据电流判断当下一个状态可能是有利的或不利的,就根据奖励和/或惩罚更新策略,并重复该过程。使用 A* 算法处理静态障碍物。
使用 D* 算法处理动态障碍物。通过图像处理自动生成环境地图,深度学习控制原理图如图1所示。图1 深度学习控制原理图 渐进式训练流程为克服在物理系统中直接训练RL的困难(耗时、不可逆状态)而设计的四阶段训练策略,如图2所示,仿真训练:在Unity 3D模拟环境中进行初步快速探索和预训练。EAS(电磁驱动系统)中的2D导航:在真实系统中固定Z轴,只训练XY平面的控制,降低初期学习难度。EAS中的3D随机目标导航:在完整3D工作空间内随机生成目标,让智能体学习整个空间的动力学。EAS中的固定距离目标训练:固定起始点与目标点的距离,专门训练智能体提高最终定位精度。图2 渐进式训练步骤 仿真与物理系统相结合在文章中,研究人员使用Unity 3D构建仿真环境,模拟非线性磁场和流体动力学,并通过MagMaps测量真实磁场,用于仿真中的磁场计算,在仿真环境中忽略部分流体力(如漂移力),通过参数调优使仿真行为接近真实系统,仿真环境如图3所示。图3 仿真环境 研究实验及结果通过强化学习在开放空间中进行磁性微机器人导航在图4中,左图展示智能体控制MR在3D空间中完成一个复杂的螺旋轨迹。这验证了智能体在三个维度上协调控制电流的能力。右图展示智能体控制MR在XY平面完成一个S形轨迹(Z轴固定)。这验证了智能体的二维平面轨迹跟踪和悬停能力。图4 使用EAS对RL代理进行再训练PID和RL导航的比较图5所设计的方法与使用PID控制器进行闭环控制的比较如图5所示,在固定Z轴的情况下,对比两种方法跟踪一条给定轨迹(黑线)的性能。文章设计的方法更紧密地贴合理想轨迹,(PID)则表现出明显的跟踪误差和振荡;在固定Y轴的情况下,对比跟踪一条涉及对抗重力的Z轴移动的轨迹。文章设计的方法再次显示出更精确的跟踪能力,而PID控制器在对抗重力时表现更差。在大脑血管仿体中的导航图6 MR在脑血管幻像中的导航如图6所示,该模型是3D打印的血管仿体模型,该仿体包含弯曲、起伏和一个小动脉瘤(目标区域),用于模拟真实的导航环境,从不同的摄像头视角,显示MR从起点导航至动脉瘤目标的过程,证明了该导航系统在脑血管中靶向运输机器人的可行性,也证明了系统与复杂环境集成的能力。微型机器人在静态障碍物中的路径规划与导航图7 在各种环境中完全自主控制的MR如图6所示,左图使用A算法在包含两个虚拟圆柱体障碍物的3D地图中规划路径,RL微型机器人成功控制MR沿规划路径导航;右图使用A算法在复杂的3D虚拟通道内规划路径,MR被限制在通道内移动,展示了在受限空间中的导航能力。研究创新性1、提出了模型无关的强化学习方法,结合神经网络策略,无需环境先验知识;2、采用四步训练法,结合仿真和物理系统训练,减少了训练时间、提高精度;
3、将强化学习与路径规划算法结合实现全自主控制。研究意义该论文为磁微机器人控制提供了新的有效方法,该方法与更多成像和磁驱动系统、算法结合,拓展到实际医学成像应用和实验中,解决了现有控制技术的不足,提高了控制的准确性、效率和适应性,有望推动磁微机器人在生物医学工程领域的实际应用。参考文献[1]Abbasi S A, Ahmed A, Noh S, et al. Autonomous 3D positional control of a magnetic microrobot using reinforcement lea