人形机器人高速运动控制中的强化学习方法与研究进展

转载自公众号：敢敢AUTOHUB

1. 研究背景与问题定义

过去几年，人形机器人运动控制的评价标准，已经从“能不能走”逐步升级为“能不能快、能不能稳、能不能连续完成任务”。在公开视频和论文里，研究者不再满足于平地行走，而是开始展示跑步、跨障、爬台阶、连续越障、被推恢复，甚至边跑边避障。这种变化说明，运动控制的竞争已经进入更高维度。

高速运动之所以重要，不只是因为它更吸睛，而是因为它几乎同时考验了机器人系统的所有关键环节。速度一旦上去，关节带宽、接触切换、全身协调、感知延迟、状态估计误差和控制器鲁棒性都会被放大。很多在慢速步行里可以被掩盖的问题，到了跑态和落地相附近，就会在几步之内暴露出来。

不过，也需要先澄清一个常见误区。目前公开论文里最有代表性的人形真机跑步速度大约在 3.3 m/s 左右，已经很强，但距离顶尖人类短跑运动员仍有明显差距。真正值得重视的，不是它是否“接近博尔特”，而是人形机器人已经开始具备可重复、可迁移、可规划接入的高速动态控制能力。

从工程角度看，高速奔跑是一个典型的耦合问题。硬件决定了扭矩、功率密度、减速比、质量分布和结构极限，控制算法决定了这些物理能力能否被安全、持续、有效地调用。离地腾空、足端触地、冲击吸收、身体摆动与上肢配平，本质上都是控制和结构共同参与的结果，因此“硬件升级”和“算法升级”从来不是彼此替代，而是相互放大。

2. 相关综述中的核心挑战

如果把时间线往回拉，Kober、Bagnell、Peters 在 2013 年的经典综述里就已经指出，机器人强化学习最大的难点并不是“有没有算法”，而是样本代价高、系统复杂、先验不足、探索危险以及真实世界实验不允许无限试错。当前的人形高速运动控制虽然是新一轮热点，但依然建立在这些长期存在的问题之上，只是任务尺度和系统复杂度显著提高了。

Tang 等人在 2025 年发表的《Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes》进一步强调，真正落地到机器人上的 RL 成功案例，往往依赖三件事同时成立：足够好的训练数据管线、合理的归纳偏置与先验设计、以及可验证的真实世界评测。换句话说，论文里看到的“会跑”，通常不是单个 loss 函数的胜利，而是一整套系统设计的胜利。

而在 2025 年的 Sim-to-Real 综述中，研究者把现实鸿沟拆成了更细的四个层面：状态观测、动作执行、转移动力学和奖励目标。这个视角很有价值，因为它解释了为什么很多控制器在仿真里很好，一上真机就失效。问题不只是“仿真不准”，而是观测噪声、执行延迟、接触不确定性和任务定义都可能在迁移过程中被重新放大。

《Learning-based legged locomotion: State of the art and future perspectives》这篇 2025 年综述则给出了更具体的判断：近几年学习式足式控制之所以突然加速，主要是因为 GPU 仿真、并行采样、廉价高性能硬件和大规模训练范式一起成熟了。换到人形上，这意味着我们终于有条件把过去只能在少量实验中验证的想法，推向大规模可复现实验。

2026 年关于双足与人形的简短综述也指出，尽管 DRL 已经极大推进了双足 locomotion，但“统一控制框架”仍然没有真正解决。站立、行走、奔跑、恢复、感知越障、上肢参与、长期任务执行，这些能力目前还常常分散在不同论文和不同控制器里。也正因为如此，谁能把这些能力逐步塞进一个统一策略，谁就更可能继续抬高人形控制的上限。

3. PPO 及其局限

在过去相当长一段时间里，PPO 几乎是人形 Sim-to-Real 的默认答案。原因很现实，它训练稳定、工程经验成熟、实现简单，而且在复杂接触系统上往往比很多理论上更强的方法更容易出结果。大量人形 locomotion 工作，包括早期真机部署，都是围绕 PPO 或其变体展开的，这一点没有争议。

但 PPO 的代价也一直存在。它是典型的 on-policy 算法，每轮更新基本只信任最新数据，大量旧经验无法被充分复用。对于自由度高、动作维度大、接触模式复杂的人形平台，这意味着训练成本会急剧上升。要学一个站得住、走得稳、还能扛扰动的策略，往往就已经需要很长时间，更别说继续往跑步和 parkour 推。

更关键的是，人形高速运动控制并不只是“多采样”就能解决。速度一快，策略需要学到更细的时间结构，例如步态切换、落地缓冲、摆臂配平、角动量管理与命令跟踪之间的耦合。如果训练方法本身对样本利用率和探索效率不友好，那么许多更激进、更高动态的动作根本来不及被充分探索和稳定下来。

这也是为什么最近两年 off-policy RL 再次升温。研究者希望重用更多经验、缩短训练时间、提高实验吞吐量，从而让“控制器迭代速度”本身成为研究优势。对人形来说，能把原本几小时甚至几天的训练压到几十分钟以内，不只是节约算力，更意味着可以在更短周期内做 reward、观测、动作空间和随机化策略的系统性搜索。

4. 主要方法脉络

如果把近两年的人形论文放在一起看，会发现真正推高上限的并不是某一个孤立算法，而是几条技术路线的叠加。第一条路线是更高效的 RL 优化器，包括 FastSAC、FastTD3、FlashSAC 这类强调高吞吐训练和大规模经验复用的方法。第二条路线是更强的先验，包括模仿、人类动作数据、重定向轨迹和技能库。

第三条路线是 teacher-student、特权信息学习和蒸馏。很多系统训练时可以用到地形真值、未来参考轨迹或其他不现实的“上帝视角”，部署时再把这些知识压缩到只依赖本体传感器和有限感知输入的 student policy 中。这种做法已经成为 humanoid Sim-to-Real 的常用范式，因为它在可学性和可部署性之间提供了一个实用平衡点。

第四条路线是把感知真正做进运动控制闭环，而不是把感知只停留在上层规划。复杂地形、障碍穿越、楼梯、窄缝和坑洞，都会要求策略理解局部地形几何，并在控制频率上调整步态和全身姿态。也就是说，未来的人形高动态控制器不会只是“腿部控制器”，而会逐渐变成一个融合感知、步态调节和全身动作生成的统一系统。

第五条路线则是把人类技能作为高质量运动先验。人类跑步、跨栏、攀爬、网球步法和全身协调动作，本质上是高度压缩过的动态知识。强化学习本身擅长做策略优化，但不擅长凭空发明优雅的人类级动态模式。因此，越来越多工作开始先从动作库、视频或运动片段中提取先验，再让 RL 负责物理可实现性、鲁棒性和 Sim-to-Real 迁移。

5. 代表性工作（2023-2024）

如果把时间轴拉到 2023 年，伯克利的《Real-World Humanoid Locomotion with Reinforcement Learning》已经给后来很多工作定了基调。它用 causal Transformer 读取观测和动作历史，通过大规模仿真训练出能够零样本迁移到真机的步行控制器。它的启发不是“Transformer 一定最好”，而是历史信息本身可以成为一种强有力的适应性记忆。

2024 年的 ExBody 则把控制目标从下肢 locomotion 扩展到全身动作表达。这项工作利用人类动作数据和 RL 训练全身控制器，使机器人在保持步行稳定的同时完成挥手、跳舞、击掌、拥抱等更丰富的动作。它提醒研究界，人形控制评估不应只关注足端速度和稳定性，还应关注全身动作质量与交互可读性。

同样在 2024 年，MHC 也就是 Masked Humanoid Controller 进一步推进了统一控制的方向。它允许策略跟踪部分或全部身体目标，从而把速度命令、局部上肢模仿和整身动作跟踪合并进一个控制框架里。这个思路很重要，因为真实任务里的指令通常并不是一整段完美动作，而是缺失、不完整、混合模态甚至动态变化的目标。

Humanoid Parkour Learning 是 2024 年另一个分水岭。它展示了端到端视觉强化学习可以把人形控制推向更强动态的跳跃、跨障和野外越障。相比传统 locomotion 论文，这类工作把“步行控制”升级成了“动态技能控制”，因为机器人不再只是在连续地走，而是在连续选择和执行不同类型的接触丰富动作，这对感知、策略泛化和恢复能力提出了更高要求。

2024 年底的 PIM，也就是 Perceptive Internal Model，则说明人形机器人开始认真处理“脚下地形感知”这一问题。论文没有直接用原始深度图去硬塞控制器，而是围绕机器人附近区域建立更稳定的高程感知表示，减少摄像头抖动与噪声影响。它的价值在于让策略真正理解支撑区域几何，而不是只依靠盲走策略去赌下一个接触是否安全。

6. 代表性工作（2025）

到了 2025 年，研究重点开始从单一能力转向能力组合。VB-Com 关注的是在视觉退化、遮挡或感知不可靠条件下，如何把 vision policy 与 blind policy 组合起来，让机器人在看不清、看错或看不到时仍能维持运动。对高速运动来说，这一点尤其关键，因为速度越高，视觉失误引发的后果越严重，系统必须具备优雅退化能力。

同年出现的《Gait-Conditioned Reinforcement Learning with Multi-Phase Curriculum for Humanoid Locomotion》，则尝试把站立、步行、奔跑和步态切换统一进一个循环策略里。它通过 gait ID、reward routing 和分阶段课程设计，减少多任务训练中的目标冲突。它的意义不在于单点速度，而在于把“不同运动模态之间的稳定切换”变成了一个可学习、可迁移的问题。

《Learning Sim-to-Real Humanoid Locomotion in 15 Minutes》把焦点放回训练效率本身。论文提出基于 FastSAC/FastTD3 的简洁配方，在单张 RTX 4090 上用几千个并行环境，在15 分钟内训练出可迁移的人形 locomotion 策略。它说明，人形控制的瓶颈正在从“算法能不能跑”逐渐转向“实验吞吐能不能足够高”，因为吞吐决定了迭代上限。

2025 年底的 GA-PHL 进一步把感知和步态耦合在一起。它利用机身下视深度相机与轻量级 U-Net 重建局部高程图，并让单一 RL 策略同时输出关节命令和全局步态相位信号。相比把感知、步态调节和控制分成多个串行模块，这种做法更像是在学习一个统一的“感知驱动动作生成器”，因此在复杂台阶和地形变化上更有潜力。

7. 代表性工作（2026）

2026 年 2 月 17 日提交的 PHP 是近期最具代表性的高动态人形工作之一。它通过 motion matching 把多个动态人类技能拼成更长的参考轨迹，再结合 teacher-student 管线训练单个视觉运动策略。项目页与论文展示了 Unitree G1 以约 3 m/s 完成多障碍 parkour、翻越障碍，甚至攀上约 1.25 m 高墙的能力。

LATENT把“高速运动控制”进一步从 locomotion 扩展到了竞技任务。它不是依赖完美动捕数据，而是从不完整的网球动作片段中提取人类技能先验，再通过校正、组合与 RL 训练，让G1在真实环境中与人进行多拍回合。它说明，未来真正强的人形控制系统，不会停留在“跑步很快”，而会在高速动态中继续执行对抗性和任务性动作。

Chasing Autonomy 则回答了另一个关键问题：如果机器人已经能高速跑，它能不能“听话地跑”？这篇工作把单个人类跑步示范通过带硬约束的动力学优化，重定向成适合机器人执行的参考运动库，再配合 CLF 引导的目标条件 RL 训练策略。最终，Unitree G1 在真机上实现了最高 3.3 m/s 的跑步，并能连续跑过数百米。

这篇工作的真正亮点还不止于速度。作者把跑步控制器接进了完整的自主系统栈，让 LiDAR 感知、MPC+CBF 安全速度规划和底层跑步策略形成闭环。也就是说，底层 RL 控制器不再只是一个演示片段播放器，而是可以接受速度与航向指令、持续执行并配合避障的真实运动模块。这一步对“人形从秀场走向场景”非常关键。

8. 优化器与理论方法进展

FlashSAC 是 2026 年里最值得关注的优化器工作之一。论文的核心并不是简单把 SAC 搬到机器人上，而是明确针对高维控制中的 critic 误差累积问题做了结构和训练机制设计。它通过更大的模型、更高的数据吞吐、更少的梯度更新，以及对权重、特征和梯度范数的约束，把 off-policy RL 从“容易炸”推向了“能稳定支撑高维机器人控制”。

更重要的是，FlashSAC 在超过 60 个任务、10 个仿真器上的结果表明，它在高维任务上的最终性能和训练效率都优于 PPO 与其他强基线，并在人形 locomotion 上把训练时间从小时级压缩到分钟级。对机器人研究来说，这样的贡献不只是单篇论文成绩，而是可能改变后续很多团队默认训练范式的基础设施级改动。

BRRL（Bounded Ratio Reinforcement Learning）与 BPO 的意义则不一样。它们并没有直接展示一个新的跑步纪录，而是从理论上重新解释了 PPO 成功的部分原因。作者从有界概率比约束出发，推导出解析最优策略，再构造出 BPO 这类更贴近理论目标的优化算法。它动的不是“训练速度”这块地基，而是 on-policy 信任域优化的理论清晰度与训练稳定性。

对于人形运动控制而言，这件事并不抽象。很多真正部署到机器人上的策略，依然会优先选择更稳定、更工程友好的 on-policy 路线。如果 BPO 这类方法能在后续更多真实机器人任务中证明自己，那么它可能不是直接制造下一个 3.3 m/s，而是让一大类原本依赖 PPO 的训练管线变得更稳、更少崩、更容易调。

9. 结论

研究重点正在从“单技能最优”转向“统一策略的技能组合”。早期很多工作强调某一个场景下的稳定步行或单一模仿动作，而最新论文更关心如何让一个策略同时覆盖站、走、跑、跳、恢复、越障与上肢参与。这种变化非常关键，因为真实世界任务不会按论文标题来排队，它要求控制器在模态切换中依然保持连贯。纯粹从零开始的 RL 正在减少，运动先验和结构先验正在增加。越来越多工作使用人类动作、视频重定向、优化参考轨迹、局部动作片段、motion matching、特权信息教师和蒸馏学生。这不是对 RL 的否定，恰恰相反，它说明研究者已经更清楚地理解了 RL 最擅长的部分是策略优化与鲁棒化，而不是凭空发明所有技能。

感知已经从“高层外挂”变成“控制组成部分”。无论是 PIM、GA-PHL 还是 PHP，都在努力缩短信号链路，让地形几何、视觉深度和局部支撑信息尽可能直接地影响步态时序和全身动作。这意味着未来的人形运动控制器很可能会变成视觉、本体感觉、步态调节和全身动作共同驱动的多模态策略，而不只是下肢控制器。训练速度本身正在成为新的竞争变量。15 分钟训练配方和 FlashSAC 这样的工作之所以重要，不是因为它们让人少等一会儿，而是因为控制器设计从此可以更频繁、更系统地被迭代。当实验周期从“天”变成“小时”甚至“分钟”，很多以前因为成本太高而无法验证的结构搜索、课程学习和随机化设计，都会变得现实。

从整体趋势看，最近一轮高速运动与动态控制研究表明，强化学习在机器人中的角色正在从单点技能生成逐步转向系统级运动控制模块。下一阶段更值得关注的，不只是线速度的继续提升，而是统一控制、长期稳定性、任务耦合能力以及在真实环境中的持续可用性。

参考文献与项目链接

1. Kober, Bagnell, Peters. Reinforcement Learning in Robotics: A Survey. IJRR, 2013.

https://journals.sagepub.com/doi/full/10.1177/0278364913495721

2. Tang et al. Deep Reinforcement Learning for Robotics: A Survey of Real-World Successes. Annual Review of Control, Robotics, and Autonomous Systems, 2025.

https://www.annualreviews.org/content/journals/10.1146/annurev-control-030323-022510

3. Da et al. A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models. arXiv, 2025.

https://arxiv.org/abs/2502.13187

4. Ha et al. Learning-based legged locomotion: State of the art and future perspectives. IJRR, 2025.

https://journals.sagepub.com/doi/full/10.1177/02783649241312698

5. Bao et al. Deep reinforcement learning for robotic bipedal locomotion: a brief survey. Artificial Intelligence Review, 2026.

https://link.springer.com/10.1007/s10462-025-11451-z

6. Radosavovic et al. Real-World Humanoid Locomotion with Reinforcement Learning. arXiv/project page, 2023.

项目页：https://learning-humanoid-locomotion.github.io/

论文：https://arxiv.org/abs/2303.03381

7. Cheng et al. Expressive Whole-Body Control for Humanoid Robots. arXiv/project page, 2024.

项目页：https://expressive-humanoid.github.io/

论文：https://arxiv.org/abs/2402.16796

8. Dugar et al. Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots. arXiv/project page, 2024.

项目页：https://masked-humanoid.github.io/mhc/

论文：https://arxiv.org/abs/2408.07295

9. Zhuang, Yao, Zhao. Humanoid Parkour Learning. arXiv, 2024.

https://arxiv.org/abs/2406.10759

10. Long et al. Learning Humanoid Locomotion with Perceptive Internal Model. arXiv, 2024.

https://arxiv.org/abs/2411.14386

11. Ren et al. VB-Com: Learning Vision-Blind Composite Humanoid Locomotion Against Deficient Perception. arXiv, 2025.

https://arxiv.org/abs/2502.14814

12. Peng, Bao, Zhou. Gait-Conditioned Reinforcement Learning with Multi-Phase Curriculum for Humanoid Locomotion. arXiv, 2025.

https://arxiv.org/abs/2505.20619

13. Seo et al. Learning Sim-to-Real Humanoid Locomotion in 15 Minutes. arXiv/project page, 2025.

项目页：https://younggyo.me/fastsac-humanoid/

论文：https://arxiv.org/abs/2512.01996

14. Song et al. Gait-Adaptive Perceptive Humanoid Locomotion with Real-Time Under-Base Terrain Reconstruction. arXiv/project page, 2025.

论文：https://arxiv.org/abs/2512.07464

15. Wu et al. Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching. arXiv/project page, 2026.

项目页：https://php-parkour.github.io/

论文：https://arxiv.org/abs/2602.15827

16. Zhang et al. Learning Athletic Humanoid Tennis Skills from Imperfect Human Motion Data. arXiv/project page, 2026.

项目页：https://zzk273.github.io/LATENT/

论文：https://arxiv.org/abs/2603.12686

17. Olkin et al. Chasing Autonomy: Dynamic Retargeting and Control Guided RL for Performant and Controllable Humanoid Running. arXiv, 2026.

https://arxiv.org/abs/2603.25902

18. Kim et al. FlashSAC: Fast and Stable Off-Policy Reinforcement Learning for High-Dimensional Robot Control. arXiv, 2026.

https://arxiv.org/abs/2604.04539

19. Ao et al. Bounded Ratio Reinforcement Learning. arXiv, 2026.

https://arxiv.org/abs/2604.18578