基于深度强化学习的双轮足机器人控制

本报告综合了基于深度强化学习的双轮足机器人控制领域的关键研究。研究脉络从基础的强化学习算法优化（如PPO、SAC的改进）出发，深入探讨了如何通过融合经典动力学模型（MPC/WBC）提升控制的物理一致性。针对真实环境部署，Sim-to-Real迁移技术与抗扰动平衡恢复构成了研究的核心壁垒。同时，通过生物启发和模仿学习，机器人步态正向自然化、多样化演进。随着视觉感知与分层规划架构的引入，双轮足机器人展现出在复杂地形下自主导航与任务执行的巨大潜力。最后，针对轮足复合形态的专项优化，标志着该领域正向更高效、更灵活的具身智能方向迈进。

共 103 篇文献，7 个研究方向

强化学习算法性能基准与核心架构优化

这些文献侧重于不同深度强化学习算法（如SAC、PPO、DDPG、TD3）在双足机器人控制中的性能对比、超参数优化、动作空间设计（力矩vs位置控制）以及核心训练架构的改进（如并行计算、经验回放、记忆增强网络LSTM-SAC）。相关文献: Jayalakshmi Murugan et. al, 2024 等 20 篇文献

模型驱动（MPC/WBC/HZD）与强化学习的混合控制

该组论文探讨如何将传统的机器人控制模型（如线性倒立摆LIPM、模型预测控制MPC、全身控制WBC、混合零动力学HZD）与强化学习相结合，利用物理先验知识引导学习过程，提高控制的可解释性、精确度和动态稳定性。相关文献: S. Bang et. al, 2024 等 17 篇文献

Sim-to-Real 迁移技术与抗扰动鲁棒性增强

专注于解决“仿真到现实”的差距问题，通过域随机化、系统辨识、电机动力学建模以及专门的抗干扰训练（如推力恢复、捕获点理论、风力负载适应），确保策略在真实物理机器人上的部署效果与平衡能力。相关文献: Shimpei Masuda et. al, 2022 等 21 篇文献

生物启发步态、模仿学习与运动生成

利用人类运动数据（Mocap）、物理对称性约束或被动动力学模型来引导RL，旨在产生自然、节能且符合生物力学的步态。涵盖了从行走、跑步到复杂足球技能的模仿与参数化生成。相关文献: Yusuf Baran Ates et. al, 2025 等 15 篇文献

感知增强、地形适应与自主导航控制

关注机器人在非结构化环境（楼梯、斜坡、障碍物、松软土壤）中的表现，涉及视觉感知集成、地形感知表征学习、世界模型（World Models）以及高层路径规划与底层步态的耦合。相关文献: M. S. Gadde et. al, 2025 等 12 篇文献

分层控制架构与课程学习策略

采用分层强化学习（HRL）或课程学习（Curriculum Learning）方案，将任务分解为高层策略和底层执行器，解决样本效率低和任务复杂度高的问题，实现不同步态间的平滑切换。相关文献: Saeed Saeedvand et. al, 2021 等 9 篇文献

双轮足机器人控制与新型系统平台应用

特别关注轮足复合形态机器人的平滑控制、轮速切换自适应，以及具体硬件平台（如Berkeley Humanoid, Cassie, Zbot）的设计与特定场景（RoboCup）下的应用实践。相关文献: Pan He et. al, 2026 等 9 篇文献

总计147篇相关文献

Learning agile soccer skills for a bipedal robot with deep reinforcement learning

基于深度强化学习的双足机器人敏捷足球技能学习

Tuomas Haarnoja, Ben Moran, Guy Lever 等, 2023-Science Robotics

We investigated whether deep reinforcement learning (deep RL) is able to synthesize sophisticated and safe movement skills for a low-cost, miniature humanoid robot that can be composed into complex behavioral strategies. We used deep RL to train a humanoid robot to play a simplified one-versus-one soccer game. The resulting agent exhibits robust and dynamic movement skills, such as rapid fall recovery, walking, turning, and kicking, and it transitions between them in a smooth and efficient manner. It also learned to anticipate ball movements and block opponent shots. The agent’s tactical behavior adapts to specific game contexts in a way that would be impractical to manually design. Our agent was trained in simulation and transferred to real robots zero-shot. A combination of sufficiently high-frequency control, targeted dynamics randomization, and perturbations during training enabled good-quality transfer. In experiments, the agent walked 181% faster, turned 302% faster, took 63% less time to get up, and kicked a ball 34% faster than a scripted baseline. OP3 humanoid robots learned to play agile soccer using deep reinforcement learning. Editor’s summary Generating robust motor skills in bipedal robots in the real world is challenging because of the inability of current control methods to generalize to specific tasks. Haarnoja et al. developed a deep reinforcement learning–based framework for full-body control of humanoid robots, enabling a game of one-versus-one soccer. The robots exhibited emergent behaviors in the form of dynamic motor skills such as the ability to recover from falls and also tactics like defending the ball against an opponent. The robot movements were faster when using their framework than a scripted baseline controller and may have potential for more complex multirobot interactions. —Amos Matsiko