Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning
Tuomas Haarnoja, Ben Moran, Guy Lever, Sandy H. Huang, Dhruva Tirumala, Markus Wulfmeier, Jan Humplik, Saran Tunyasuvunakool, Noah Y. Siegel, Roland Hafner, Michael Bloesch, Kristian Hartikainen, Arunkumar Byravan, Leonard Hasenclever, Yuval Tassa, Fereshteh Sadeghi, Nathan Batchelor, Federico Casarini, Stefano Saliceti, Charles Game, Neil Sreendra, Kushal Patel, Marlon Gwira, Andrea Huber, Nicole Hurley, Francesco Nori, Raia Hadsell, Nicolas Heess
[DeepMind]用深度强化学习让双足机器人学习敏捷足球技能
动机:研究用深度强化学习让低成本人形机器人具备复杂的和安全的移动技能,并能在动态环境中进行复杂的行为策略。 方法:在模拟器中使用深度强化学习训练一个20个活动关节的人形机器人玩简化版足球游戏,将单独的技能组合成自我对抗的整体行为。使用高频控制、有针对性的动态随机化和训练中的干扰等技术实现了从模拟器到真实机器人的零成本迁移。 优势:研究结果表明,深度强化学习可以让低成本人形机器人具备动态和敏捷的移动技能和基本的战术理解,并能在真实环境中迁移。相比于传统的编程方法,该方法能够让机器人在复杂动态环境中表现出更加自然和高效的行为。研究了如何用深度强化学习让低成本小型人形机器人学会玩简化版的足球游戏,并具备动态和敏捷的移动技能和基本的战术理解。
在这篇论文中,研究者研究了动态多智能体环境中小型类人机器人的全身控制和对象交互。他们考虑了整个足球问题的一个子集,训练了一个具有 20 个可控关节的低成本微型类人机器人来玩 1 v1 足球比赛,并观察本体感觉和比赛状态特征。通过内置的控制器,机器人缓慢笨拙地移动。不过,研究者使用深度强化学习将智能体以自然流畅方式组合起来的动态敏捷的上下文自适应运动技巧(如走、跑、转身以及踢球和跌倒爬起)合成为了复杂的长期行为。
在实验中,智能体学会了预测球的运动、定位、阻攻以及利用反弹球等。智能体在多智能体环境中出现这些行为得益于技能复用、端到端训练和简单奖励的组合。研究者在模拟中训练智能体并将它们迁移到物理机器人中,证明了即使对于低成本机器人而言,模拟到真实的迁移也是可能的。
用数据说话,机器人的行走速度提升了 156%,起身的时间减少了 63%,踢球的速度也比基线提升了 24%。
论文地址:https://arxiv.org/abs/2304.13653