扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

人形机器人的“端到端”时刻:Figure Helix 02 架构对自动驾驶 VLA 的启示

11小时前
188
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

Figure,这家成立于 2022 年的美国独角兽公司,致力于打造全球首款具有商业可行性的自主人形机器人。它不仅是该领域的领跑者,也是最早提出并实践在人形机器人上采用 VLA(Vision-Language-Action,视觉-语言-动作) 模型的先驱。

这两天,Figure 发布了其最新成果——Helix 02:一种统一的全身运动操控 VLA。在此之前,我们或许见过 Optimus 卖力地分拣爆米花,见过各种能跑能跳的 Demo,也见过不少缺乏实际应用场景的“自嗨”型机器人。但是,Helix 02 展示的这种全自主、从手部精细操作到全身肢体协调、完整交付任务的能力,在业内尚属首次。

在演示中,机器人仅接收到一个模糊指令:“帮我洗碗,并收好放在柜子上”,便自主完成了从打开洗碗机、取出碗盘到放入橱柜的完整闭环工作。本文将基于 Figure 发布的 Helix 02 技术细节,深度分析其软件核心——一种分层的“系统架构”。该架构通过三个紧密集成的系统,实现了从像素输入到物理动作输出的全方位控制。值得注意的是,这种算法架构与当前高阶自动驾驶中的 VLA 布局逻辑高度相似,希望能给行业带来一些新的启发。

1. 三个核心系统

Helix仅使用一套神经网络,但他是由三个核心系统神经网络模型组合而成,不过他们的模型的“语言”是一致的,所以可以做到端到端训练。

System 2 (S2):语义推理与规划层

这是最高层的推理系统,负责“慢思考”。它处理场景理解、语言指令,并规划长期的行为序列。例如,它将“去打开洗碗机,把里面碗拿出来放到柜台上”这样的自然语言转化为语义潜变量传递给下一层。其实这里面相当复杂,至少需要理解两层意思,第一层是自然语言指令,第二层是视觉环境理解。可以通过Figure的官方宣传文件显示,这是一个7B(70亿参数)的大模型,一般就是一个VLM视觉语音大模型。目前自动驾驶行业也在做这方面的工作,一般需要构建一个座舱或着自驾的VLM模型,理解自然语音,理解自身所在环境。

System 1 (S1):视觉运动策略层

这是中间层,负责“快思考”,运行频率为200 Hz。它采用了“全传感器输入,全关节输出”的架构。他是一个 8000 万参数的交叉注意力编码器-解码器 Transformer 模型,负责底层控制。它依赖于一个全卷积、多尺度的视觉骨干网络进行视觉处理,该网络完全在仿真环境中进行预训练。首先,它接收来自S2的指令,同时连接所有机载传感器,包括头部摄像头、手掌摄像头、指尖触觉传感器以及全身本体感觉传感器。

虽然S1接收来自于S2的高阶指令,但S1 接收与 S2 相同的图像和状态输入,但它以更高的频率处理这些数据,从而实现更灵敏的闭环控制。同时,来自 S2 的潜在向量被投影到 S1 的标记空间中,并与来自 S1 视觉骨干网络的视觉特征沿序列维度进行拼接,从而提供任务条件化信息。最后,S1它将感知信息转化为全身关节的目标指令,控制范围覆盖腿部、躯干、头部、手臂、手腕及手指。这是神经网络策略首次利用手掌摄像头和触觉传感器来实现灵巧操作。

System 0 (S0):全身控制基础模型层

这是动作的基础执行层,运行频率高达1 kHz。它是一个基于学习的控制器,负责处理平衡、接触力以及全身的协调。它是一个1000万参数的大模型,取代了传统机器人中超过10万行手写的C++代码,确保机器人的动作平滑、安全且自然,像人类一样保持平衡。Figure宣称S0在模拟环境中通过超过200,000个并行环境场景和1,000小时的人类运动数据训练而成。

2. 系统如何协作运行

这三个系统构成了一个从“像素到力矩”的紧密集成层级结构,实现了人形机器人真正的全身自主性。首先,虽然三个系统或着说三个模型,但是Helix 的训练采用端到端的方式。将原始像素和文本命令映射到连续动作,并使用标准回归损失。梯度通过用于调节 S1 行为的潜在通信向量从 S1 反向传播到 S2,从而实现两个组件的联合优化。Helix 无需针对特定任务进行调整;它仅需一个训练阶段和一组神经网络权重,无需单独的动作头或针对每个任务的微调阶段。在训练过程中,在S1和S2的输入之间添加一个时间偏移量。该偏移量经过校准,以匹配S1和S2部署后的推理延迟之间的差距,从而确保部署期间的实时控制需求能够准确反映在训练中。

最终在实际应用过程中,他们的协作流程如下:S2 设定目标(宏观决策):S2 分析环境和任务(例如“整理厨房”),生成一系列语义潜变量。它告诉系统“要做什么”,而不需要操心具体的身体如何移动。

S1 转化为动作(感知与策略):S1 接收S2的目标,结合实时的视觉和触觉反馈,计算出为了实现该目标,机器人的每个关节应该处于什么位置。它以200 Hz的速度生成全身关节目标,实现了在行走的同时进行手部操作的复杂协调(例如一边走一边拿稳易碎物品)。

S0 执行与稳定(物理执行):S0 接收S1生成的关节目标,并以1 kHz的高频进行执行。它负责底层的物理实现,确保机器人在执行动作时不会摔倒,自动调整姿态和力道以维持平衡。最后Figure表示Helix 02能够完成机器人领域长期以来的难题——移动操作,即把移动和操作作为单一的连续行为来处理,而不是像传统机器人那样将“走”和“拿”机械地分开。

如文章开头,在一段4分钟的视频中,机器人自主完成了卸载和重新装填洗碗机的任务,期间由于系统的协作,它甚至能用臀部关抽屉、用脚踢开洗碗机门,展现了全身协同工作的能力。Helix 02 的出现,不仅为人形机器人的商业化落地增添了强有力的信心,也为包括自动驾驶汽车在内的 Physical AI 领域提供了极具价值的参考范本。

参考资料以及图片


*未经准许严禁转载和摘录-获取本文参考资料方式:加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。

相关推荐