转载自公众号:敢敢AUTOHUB
0. 引言:两篇文章其实在讲同一件事
过去两年,具身智能和机器人基础模型的讨论变得非常密集。第一篇文章从 VLA、WAM、UAM 三条路线切入,强调机器人策略正在从“视觉语言到动作”的响应式映射,走向“先预测世界、再生成动作、再通过真实反馈持续进化”的闭环系统。第二篇文章则从 VA、VLA、WAM、VAM、强化学习后训练 的演进角度展开,重点梳理了 VLA 内部的自回归、扩散、流匹配三类动作生成机制,以及视频生成模型、物理先验和 RL 后训练如何继续推高机器人泛化能力。
如果把两篇文章合起来看,它们并不是两套互相竞争的分类,而是同一条技术主线的不同切面:
1. VA 到 VLA:机器人从只看图像输出动作,发展到能理解自然语言指令并生成动作。
2. VLA 内部演进:动作生成从自回归 token、扩散去噪,继续走向流匹配和动作专家。
3. WAM 与 VAM:模型不再只预测动作,而是引入未来视频、未来 latent 或世界状态预测,让动作带有物理后果约束。
4. UAM:在 VLA 微调中重新划分语义理解和视觉运动控制的职责,避免动作数据侵蚀 VLM 的语义能力。
5. RL 与自进化闭环:机器人把真实执行中的成功、失败、near-miss、预测误差和候选轨迹转化为后训练资产。
因此,这篇融合版文章的核心判断是:机器人基础模型正在从行为克隆式的模仿系统,演进为同时具备语义理解、物理预测、动作生成、风险评估和自我修正能力的世界交互模型。
图 1:VLA、WAM、UAM 的核心区别。VLA 强调视觉语言到动作,WAM 强调动作之前预测未来,UAM 强调语义通路和运动控制通路的结构分工。
从建模目标看,VLA、WAM、UAM/VAM 的差别可以用几组公式抓住。VLA 学习的是当前观测和语言指令条件下的动作分布:
WAM 进一步要求模型学习未来状态与动作之间的联合分布:
VAM 则可以看作 WAM 的轻量化或工程折中版本,它不一定显式生成完整未来视频,而是借助预训练视频生成模型的 latent 表征作为物理先验:
UAM 关注的问题又不同。它不是只问“动作怎么生成”,而是问:当 VLM 被微调成 VLA 时,如何保住原本的开放词汇视觉语言理解能力。因此,UAM 的核心不只是输出动作,而是通过双通路结构把语义识别压力和运动控制压力分开。
这几个方向合起来,形成了机器人基础模型的一条清晰演进线:VA 让机器人会模仿,VLA 让机器人听得懂,WAM/VAM 让机器人会预判,UAM 让机器人不忘语义,RL 与自进化闭环让机器人从真实交互中持续变强。
1. 从 VA 到 VLA:机器人控制为什么需要语言
在 VLA 之前,许多端到端机器人策略更接近 VA(Vision-Action)。以 ACT(Action Chunking with Transformers)为代表的方案,核心是学习视觉观测到动作序列的映射。它输入相机图像,输出关节角、末端位姿或夹爪开合等控制量。VA 的优点是链路短、推理快、工程上容易接入高频控制;缺点也很明显:它不理解自然语言任务。
这意味着,如果机器人只训练过“抓红色方块”,它未必能理解“把蓝色圆柱放进盒子里”。即使两个任务的动作结构相似,缺少语言接口的 VA 模型也很难把人类意图迁移到新任务上。开放家庭、办公室、仓储和医院环境中,任务往往不是固定菜单,而是人用自然语言提出的临时目标。因此,机器人策略必须从“视觉到动作”升级为“视觉、语言、动作”的统一建模。
VLA 的突破就在这里。它把视觉编码器、语言模型和动作头连接起来,让机器人不仅看到物体,还能理解“拿起杯子”“把餐桌收拾干净”“避开玻璃杯后把碗放进洗碗机”这类开放指令。RT-1 把多任务机器人控制转成序列建模问题,RT-2 进一步把互联网规模视觉语言模型接入机器人动作生成,OpenVLA 则推动了开源复现路径,用大规模真实机器人演示数据训练通用 VLA,并强调 LoRA 微调、量化部署和社区可复现性。
图 2:VLA 将视觉、语言和动作统一起来。图像提供场景状态,语言提供任务目标,动作头输出可执行控制序列。
一个典型 VLA 系统通常包含四个部分:
1. 视觉编码器:把 RGB、RGB-D、多视角图像或视频切成视觉 token。
2. 语言编码器或 LLM 主干:理解自然语言任务、物体语义、空间关系和常识约束。
3. 多模态融合模块:让视觉 token 与文本 token 在 Transformer 中交互。
4. 动作头或动作解码器:输出 action chunk、动作 token 或连续动作向量。
这里的关键是,VLA 输出的往往不是单个电机命令,而是一段短时动作片段:
这种 action chunk 可以减少模型调用频率,让动作更平滑,也让模型表达“短时运动意图”。例如抓杯子时,机器人不是每一步都重新思考,而是一次生成未来 0.5 到 2 秒的末端位姿、腕部旋转和夹爪闭合信号。
2. 动作 Tokenizer:VLA 的监督语言
VLA 看起来是多模态模型问题,实质上很大一部分难点落在 动作表示 上。语言模型天然擅长预测离散 token,但机器人控制量是连续、高维、高频的。如何把连续动作变成模型能预测、能学习、能泛化的动作 token,直接决定 VLA 的训练效率和部署延迟。
最朴素的做法是把每个动作维度分 bin,把连续值量化成离散 id。RT-2 一类方法就将机器人动作空间离散化,然后像生成文本一样生成动作 token。这种方案容易复用语言模型架构,但也带来误差累积、精度损失和推理延迟问题。
import numpy as np
def uniform_action_tokenize(action_chunk, low, high, bins=256):
"""
最简单的动作离散化示例。
action_chunk: [T, D],T 是动作片段长度,D 是动作维度。
low/high: 每个动作维度的上下界。
"""
x = np.clip(action_chunk, low, high)
scaled = (x - low) / (high - low + 1e-8)
tokens = np.floor(scaled * (bins - 1)).astype(np.int64)
return tokens.reshape(-1)
def uniform_action_detokenize(tokens, low, high, T, D, bins=256):
ids = tokens.reshape(T, D).astype(np.float32)
scaled = ids / (bins - 1)
return scaled * (high - low) + low
从公式上看,动作 tokenizer 做的是:
动作 decoder 再把 token 还原为机器人执行的连续动作:
这里的 B 是 token budget。它越大,动作细节越容易保留,但自回归预测要生成的 token 越多,推理越慢;它越小,模型更快,但精细抓取、插入、旋转这类控制动作容易损失。动作 tokenizer 因此不是普通压缩器,而是 VLA 的监督目标设计器。
图 3:ActionCodec 类工作把动作 tokenizer 从“重建器”重新定义为“适合 VLA 学习的动作监督设计器”。
好的动作 tokenizer 至少要满足四个要求:
1. 相似动作对应相似 token:同一种稳定抓取里的轻微手抖不应变成完全不同的 token 序列。
2. 控制 token 预算:过多 token 会拉高自回归推理延迟,过少 token 会损失动作细节。
3. 避免拟合无关噪声:动作数据中的高频抖动、操作者习惯和标注噪声不应被认真编码成语义监督。
4. 降低错误传播:自回归生成时,一个 token 错误不应让后续动作全部崩掉。
图 4:动作表示影响模型训练目标、推理延迟和控制质量。近年的 VLA 讨论已经从“模型多大”转向“动作如何被表示和学习”。
3. VLA 的三类动作生成路线:自回归、扩散与流匹配
第二篇文章将 VLA 内部的动作生成机制分为三条路线,这个分类非常适合补充第一篇文章对动作 token 的讨论。
3.1 自回归路线:把动作当成语言 token 生成
自回归路线的核心思想是,将连续动作离散成动作 token,然后从左到右逐个预测。这种路线最大的优势是可以复用 LLM/VLM 的成熟架构和预训练权重。RT-2 就是这一方向的代表,它把机器人动作离散化为多个 bin,并把动作 id 加入词表,让模型像生成文本一样生成动作。
自回归 VLA 的优点是训练简单、语言能力迁移直接、工程范式清楚;缺点是串行生成带来延迟,动作维度越高、chunk 越长,token 越多。同时,前面 token 的错误可能影响后续 token,导致动作漂移。对于高频控制和精细操作,自回归路线通常需要借助动作压缩、缓存、并行解码或低频策略高频控制器组合来缓解延迟。
3.2 扩散路线:从噪声中生成动作轨迹
扩散路线把动作生成看成一个去噪过程。训练时,模型学习从带噪动作恢复干净动作;推理时,从随机噪声开始迭代去噪,生成符合当前观测和语言指令的动作序列。扩散策略的优势是能并行生成整段动作,天然适合多模态动作分布。同一个目标可能有多种可行抓取路径,扩散模型可以表示这种“一题多解”的动作空间。
缺点是采样需要多步迭代,计算成本较高。虽然可以通过 DDIM、少步采样、蒸馏等方式加速,但采样步数过少可能降低动作质量。因此,扩散路线适合动作多样性强、轨迹全局一致性重要的任务,但实时性优化会成为部署重点。
3.3 流匹配路线:学习从噪声到动作的速度场
流匹配可以看作扩散路线的进一步简化。它不显式模拟复杂扩散过程,而是直接学习从噪声分布流向目标动作分布的速度场。推理时,只需较少采样步数就能生成平滑动作。
π0 系列模型常被用来说明这一路线。材料中提到,π0 采用视觉语言专家与动作专家结合的架构,通过流匹配生成连续动作序列。其价值不只在速度,还在动作的平滑性。对拉拉链、擦拭、旋转瓶盖、插入等接触密集任务来说,动作的微小抖动就可能导致失败,流匹配生成的连续轨迹更符合这类控制需求。
图 5:流匹配路线强调从噪声到动作的连续流动,相比自回归 token 更适合生成平滑连续的 action chunk。
三条路线可以这样对比:
| 路线 | 动作表示 | 优势 | 局限 | 适合场景 |
|---|---|---|---|---|
| 自回归 | 离散动作 token | 复用 LLM,训练简单,语言迁移好 | 串行延迟、误差累积、量化损失 | 开放语言任务、低频控制、快速复现 |
| 扩散 | 连续动作去噪 | 多模态动作强,整段动作一致 | 多步采样成本高 | 复杂轨迹、多个可行动作方案 |
| 流匹配 | 连续速度场 | 平滑、高效、少步生成 | 训练与调度仍需精细设计 | 精细操作、接触密集控制、实时部署 |
4. VLA 生态:从开源基座到性能标杆
两篇文章都提到,VLA 已经不是单一模型,而是形成了多层生态。不同模型的差异不只在参数规模,也在动作生成路线、数据组织、机器人本体适配和部署目标。
图 6:机器人基础模型路线正在从单一 VLA 扩展到 VLA、WAM、VAM、RL 后训练等多分支融合。
可以按工程定位把代表模型分成几类。
第一类是 语义迁移型 VLA。RT-2、OpenVLA 这类模型强调把 VLM 的互联网语义知识迁移到机器人控制中。OpenVLA 的意义不仅在于模型本身,还在于它把大规模机器人演示、开源权重、LoRA 微调和量化部署组织成社区可复现路线。
第二类是 高性能动作生成型 VLA。π0 系列代表了“视觉语言专家 + 动作专家 + 流匹配”的思路,重点解决动作连续性、接触任务和泛化问题。材料中提到的 π0.5、π0.7 进一步强调知识隔离、提示条件化和世界模型式子目标。
第三类是 轻量化与端侧部署型 VLA。SmolVLA 这类模型的价值在于让普通 GPU 或个人设备也能运行 VLA,为研究者、小团队和边缘设备部署降低门槛。
第四类是 跨本体泛化型 VLA。X-VLA 通过软提示等方式编码机器人本体信息,使模型能够适配不同机器人平台。跨本体泛化非常关键,因为真实机器人领域很少有统一动作空间:双臂、轮式底盘、人形机器人、灵巧手、机械臂末端执行器的控制维度都不同。
第五类是 世界模型融合型 VLA。WALL-A、DreamZero、Motus 等工作强调不只输出动作,还要让模型形成对未来世界变化的预测或 latent 表征。
| 模型/方向 | 主要特点 | 更适合解决的问题 |
|---|---|---|
| RT-2 | 将 VLM 语义能力接入机器人动作 | 语义迁移、开放词汇任务 |
| OpenVLA | 开源 VLA 基座,支持微调与社区复现 | 通用机器人策略原型 |
| SmolVLA | 小参数、低资源部署 | 端侧运行、轻量研究 |
| X-VLA | 软提示适配不同机器人本体 | 跨平台迁移 |
| π0 系列 | 流匹配与动作专家 | 精细操作、连续控制 |
| WALL-A / DreamZero / Motus | 引入世界模型或视频动作联合建模 | 长时任务、物理预判、后训练 |
需要注意的是,参数规模并不是唯一指标。机器人模型的真实价值还取决于控制频率、动作稳定性、失败恢复能力、跨场景泛化和真实机器人成功率。一个更小但能稳定闭环控制的模型,往往比一个只能离线生成漂亮视频的大模型更有工程意义。
5. VLA 的根本局限:强语义不等于强物理预见
VLA 的核心问题在于,它大多仍是从当前观测和语言指令到动作的响应式映射:
它可以知道“杯子”“水槽”“餐桌收拾干净”是什么意思,也可能学过很多抓取和放置轨迹,但它未必显式知道某个动作会让杯子倾斜、滑落、碰到旁边的碗,或者让后续任务进入不可恢复状态。
这种局限在短时抓取中未必明显,因为很多任务靠模仿就能完成。但在长时任务、接触密集任务、可变形物体操作和开放家庭场景中,机器人必须理解动作会如何改变世界。机器人不是在图像里做选择,而是在物理环境里持续干预;每一步动作都会改变下一步观测,而下一步观测又会影响后续动作。
因此,世界模型重新回到机器人学习中心。世界模型的基本形式是:
它不是为了生成“好看的未来视频”,而是为了服务控制、规划、评估和后训练。一个未来视频即使清晰,如果不能被动作控制、不能保持接触关系、不能预测失败风险,也不能算真正的机器人世界模型。
图 7:机器人世界模型可以分为策略内世界模型、学习型模拟器和机器人视频生成三条线。关键问题不是视频像不像,而是能否服务动作决策。
图 8:世界模型进入机器人基础模型后,评估标准从视觉保真度扩展到物理一致性、动作可执行性和策略收益。
6. WAM:把“预测未来”并入动作生成
WAM(World Action Model)可以理解为 VLA 与世界模型的合流。标准 VLA 建模的是:
WAM 建模的是:
这一步的意义不是多输出一段视频,而是让动作生成被未来状态约束。机器人在执行之前先形成关于世界演化的内部表征,再依据这个表征生成动作,就有机会利用物体位移、接触变化、遮挡、风险和任务进度来选择更稳的动作。
图 9:WAM Survey 对 VLA、World Model 和 WAM 的边界做了形式化区分。WAM 的核心是未来状态与动作的联合建模。
WAM 大致可以分成两类。
级联式 WAM 是先预测未来,再从未来反推动作。例如先用视频生成模型合成任务执行过程,再用逆动力学模型从视频里恢复动作。这类方法解释性强,中间未来视频、光流或语义图可以被人检查;问题是误差会层层传递。如果未来视频偏了,动作也会偏;如果逆动力学弱,视频看起来合理也不一定能转成可执行控制。
联合式 WAM 是把未来状态和动作放进同一个生成过程,例如共享一个 DiT 主干,同时去噪未来视频 latent 和动作 latent,或者用多专家 Transformer 让理解专家、视频专家和动作专家共享注意力。这类方法耦合更深,更有可能学到动作与世界变化之间的内在关系,但训练、调度、推理和评估都更复杂。
图 10:级联式 WAM 更可解释,联合式 WAM 更统一。工程上常见路线是先用未来 latent 或短 horizon 预测降低成本,再逐步扩展到长时视频和动作联合生成。
6.1 DreamZero:视频扩散骨干进入闭环控制
DreamZero 适合用来理解联合式 WAM 的工程哲学。它以预训练视频扩散骨干为基础,把视频和动作放进同一个自回归闭环控制流程中。材料中特别强调了几个工程细节:真实观测替换想象帧、异步执行、缓存、量化优化,以及将大规模视频扩散模型推向实时闭环控制。
图 11:DreamZero 将预训练视频扩散骨干改造成闭环 World Action Model,强调未来状态与动作的联合建模。
DreamZero 的核心启发是:未来预测不能无限滚动幻想。真实机器人每执行一段动作,就会得到真实相机反馈。用真实观测替换预测帧,本质上是在闭环中持续校正世界模型,避免预测误差长时间累积。
6.2 Motus:用多专家框架统一理解、世界建模与动作
Motus 则体现另一种思路:用统一多模态框架承载理解、视频生成和动作预测。它引入理解专家、视频专家和动作专家,通过 Mixture-of-Transformers 和 UniDiffuser 式调度支持多种模式:世界模型、VLA、逆动力学、视频生成、视频动作联合预测等。
图 12:Motus 使用理解、视频和动作三类专家,让语义理解、世界建模和动作生成在共享注意力中交换信息。
DreamZero 更强调实时闭环和真实执行对齐;Motus 更强调统一建模和跨具身动作抽象。二者的共同点是,它们都不满足于“看见就做”,而是把未来状态纳入动作生成过程。
6.3 WAM 推理:候选未来与动作绑定
WAM 的推理方式也不同于普通 VLA。它可以同时生成多条 future-action 候选,然后依据价值、风险和不确定性选择执行哪一条。
def wam_candidate_selection(world_action_model, obs, instruction, k=8):
"""
简化版 WAM 推理流程:
生成多条 future-action 候选,再根据价值、风险和不确定性选择动作。
"""
rollouts = []
for _ in range(k):
future, action_chunk, scores = world_action_model.sample(
observation=obs,
language=instruction,
return_future=True,
return_action=True,
)
utility = scores["value"] - 0.7 * scores["risk"] - 0.3 * scores["uncertainty"]
rollouts.append({
"future": future,
"action": action_chunk,
"scores": scores,
"utility": utility,
})
best = max(rollouts, key=lambda item: item["utility"])
return best["action"], rollouts
图 13:WAM 不只输出动作,还输出与动作绑定的未来候选。这些候选记录了模型当时如何权衡价值、风险和不确定性。
这种机制非常重要。对于真实机器人,未执行的候选不是强监督标签,但它们记录了模型在同一状态下认为哪些路径可行、哪些路径危险、哪些路径不确定。这些信息可以进入偏好学习、风险排序和失败分析。
7. VAM:借用视频生成模型的物理先验
第二篇文章提出的 VAM(Video Action Model)可以放在 WAM 和 VLA 之间理解。WAM 倾向于把世界预测显式纳入动作生成,甚至生成未来视频或未来 latent;VAM 则更务实:它不一定从头训练一个机器人世界模型,而是直接借用预训练视频生成模型的物理先验。
视频生成模型在海量视频上训练,已经隐式学习到物体运动、遮挡、光影、接触和场景变化等规律。VAM 的做法是冻结或部分冻结视频骨干,在 latent space 上训练动作解码器。这样既避免从头训练大规模视频模型的成本,又能把视频模型的视觉动态先验迁移到机器人控制中。
图 14:VAM 借用预训练视频模型的 latent 表征,把视频先验作为动作策略的输入或中间表示。
VPP(Video Prior for Policy)就是这一思路的代表。它冻结预训练视频扩散模型主干,只训练轻量动作解码器。相比 WAM,VAM 的优势是训练成本低、样本效率高、部署更轻;局限是物理先验更隐式,模型为什么做出某种动作不如显式 WAM 容易解释。如果视频模型对机器人末端执行器、接触力、夹爪遮挡等场景建模不足,这种偏差也会传递到动作策略中。
可以把 VAM 理解成一句话:不一定每个机器人团队都能训练自己的世界模型,但可以先借用视频生成模型已经学到的世界动态知识。
| 方向 | 世界知识来源 | 是否显式预测未来 | 优点 | 风险 |
|---|---|---|---|---|
| VLA | 机器人演示 + VLM 语义先验 | 通常不显式预测 | 简洁、成熟、易部署 | 物理预见不足 |
| WAM | 机器人数据 + 视频/世界模型训练 | 显式预测未来状态或 latent | 可解释、可评估、可后训练 | 训练和推理成本高 |
| VAM | 冻结/复用预训练视频模型 | 通常在 latent 中隐式使用 | 训练高效、样本效率高 | 物理先验不透明,任务适配受限 |
8. UAM:VLA 微调为什么会交“具身税”
UAM(Unified Action Model)关注的是另一类问题:VLA 在动作数据上微调时,可能会损伤原本 VLM 的语义能力。UAM 论文把这种副作用称为 embodiment tax(具身税)。
直观理解是,原本的 VLM 擅长识别物体、理解语言、回答图像问题。但当它被微调成 VLA 时,同一套视觉编码路径被迫同时服务两件事:一方面要保持开放词汇语义理解,另一方面要拟合低层控制信号。机器人动作数据规模通常远小于互联网视觉语言数据,而且分布更窄。如果所有压力都压到同一条主干上,模型可能为了拟合动作而牺牲通用语义表示。
这对开放环境机器人很危险。机器人越需要泛化到新物体、新组合、新指令,就越不能在动作微调时忘掉 VLM 的语义底座。
图 15:UAM 借鉴生物视觉双通路思想:腹侧通路偏语义识别,背侧通路偏视觉运动控制。
UAM 的解决思路是结构分工。它保留原来的 VLM 语义主干,同时引入一个并行的 Dorsal Expert,让它承担控制相关的视觉动态学习。也就是说,语义通路回答“这是什么、目标在哪里、指令约束是什么”,运动通路回答“怎么接近、怎么接触、未来局部动态如何变化”。
import torch
import torch.nn as nn
class UnifiedActionModel(nn.Module):
"""
简化版 UAM 结构示意:
VLM 语义通路负责语言接地,Dorsal Expert 负责视觉动态,
本体感受编码器提供身体状态,动作头融合后生成 action chunk。
"""
def __init__(self, vlm, dorsal_expert, proprio_encoder, action_head):
super().__init__()
self.vlm = vlm
self.dorsal = dorsal_expert
self.proprio = proprio_encoder
self.action_head = action_head
def forward(self, images, instruction_ids, proprio_state):
semantic_tokens = self.vlm.encode(images, instruction_ids)
motion_tokens = self.dorsal.predict_midlevel_dynamics(images)
body_tokens = self.proprio(proprio_state)
fused = torch.cat([semantic_tokens, motion_tokens, body_tokens], dim=1)
action_chunk = self.action_head(fused)
return action_chunk
UAM 对 VLA/WAM 的启发是:不要把所有能力都塞进一个单一编码器里。未来更合理的架构可能是:
- 1. 语义通路负责开放词汇视觉语言理解。2. 世界动态通路负责未来状态、运动区域、接触趋势和风险。3. 本体通路负责关节、末端位姿、夹爪、力反馈。4. 动作专家负责把这些 token 融合成可执行 action chunk。
换句话说,UAM 不是否定 VLA 或 WAM,而是给它们补了一条结构原则:语义、动态、身体状态和动作生成需要有明确分工。
9. 自进化 WAM:把真实执行变成训练资产
第一篇文章中最有工程价值的一部分,是自进化 WAM。普通 VLA 的链路是:
普通 WAM 往前走一步:
自进化 WAM 的关键是,在线推理中产生的想象过程不会被丢弃,而是被真实执行结果校准、筛选、归档,并进入后续训练:
这套机制的核心不是“机器人自己幻想数据训练自己”,而是 机器人把真实执行校准过的想象过程变成可审计、可筛选、可训练的资产。
图 16:自进化 WAM 将在线候选 rollout、真实执行结果、预测误差、失败原因和训练路由组织成闭环。
一个可落地的自进化 WAM 可以分成四层。
第一层是 Reality-to-Latent Interface。它把现实世界压缩成统一输入包,包括多视角图像、短视频、深度、点云、本体状态、夹爪开合、力反馈、历史动作、语言目标和安全约束。这个输入包可以称为 conditioning packet,其中包含 world latent、goal tokens、body tokens 和 past action tokens。
第二层是 Online Imagination Engine。它基于 conditioning packet 生成多条 future-action rollout。每条候选都包含预测未来、动作 chunk、价值估计、风险估计、不确定性、失败原因和轨迹 embedding。
第三层是 Reality Alignment。它把被执行候选的 imagined future 与 actual future 对齐,拆出视觉预测误差、接触误差、时序误差、风险低估、价值过度自信、near-miss 分数和可恢复性下降等信号。
第四层是 Autonomous Evolution Engine。它由 Failure Knowledge Extractor、Evolution Judge 和 Training Agent 组成,把连续日志转成结构化训练样本,并决定样本进入哪个 buffer、使用什么 loss、权重多大。
def judge_self_evolving_trace(trace):
"""
Self-Evolving WAM 的样本路由示例。
被执行 rollout 可产生强监督;
未执行 rollout 只用于偏好、排序和边界分析。
"""
executed = trace["executed"]
candidates = trace["candidates"]
align = trace["alignment"]
failure = trace["failure_record"]
routes = []
if align["prediction_error"] > 0.45:
routes.append({
"buffer": "world_model_correction",
"loss": "future_latent_alignment",
"weight": min(2.0, 1.0 + align["prediction_error"]),
"reason": "imagined future diverged from actual future",
})
if align["risk_underestimate"] > 0.30:
routes.append({
"buffer": "risk_calibration",
"loss": "risk_head_regression",
"weight": 1.5,
"reason": "risk head was overconfident",
})
if failure["type"] in {"object_slip", "collision", "wrong_contact_point"}:
routes.append({
"buffer": "failure_recovery_sft",
"loss": "corrective_action_supervision",
"weight": 1.8,
"reason": f"contact-related failure: {failure['type']}",
})
preference_pairs = build_preference_pairs(
executed_rollout=executed,
candidate_rollouts=candidates,
actual_outcome=trace["actual_future"],
)
if preference_pairs:
routes.append({
"buffer": "candidate_preference",
"loss": "preference_ranking",
"weight": 0.7,
"reason": "non-executed candidates record decision boundaries",
})
return routes
这里必须守住一个边界:未执行的 K-1 条候选不能当作真实监督标签,因为它们没有被现实验证。但它们可以用于偏好学习、风险排序、候选多样性和反事实分析。强监督来自被执行轨迹与真实结果之间的对齐误差。
自进化 WAM 至少应该维护四类 buffer:
| Buffer | 存放内容 | 训练目标 |
|---|---|---|
| policy SFT buffer | 真实成功或人工纠正后的高质量动作 | 行为监督微调 |
| world model correction buffer | 想象未来与真实未来偏差大的样本 | 未来 latent / 视频预测校正 |
| risk calibration buffer | 风险低估、价值过度自信、near-miss 样本 | 风险头和价值头校准 |
| candidate preference buffer | 同一状态下多候选排序关系 | 偏好学习、风险排序 |
这样的训练飞轮比普通行为克隆复杂,但错误归因更清楚:世界预测错了就修世界模型,动作解码错了就修动作头,风险估计错了就修校准头,语言目标错了再回到语义通路或任务分解模块。
10. 强化学习后训练:优化动作,也优化“思考过程”
第二篇文章补充了另一个关键环节:强化学习后训练。VLA、WAM、VAM 在预训练阶段大多依赖行为克隆。行为克隆让模型模仿专家演示,但它学到的是“这个场景下该做什么”,不一定知道“为什么这样做”以及“偏离后如何恢复”。
强化学习提供了一条从模仿走向适应的路径。它让机器人通过环境反馈优化策略,尤其适合处理演示数据覆盖不到的长尾状态。
图 17:LaST-R1 将强化学习目标从动作空间扩展到隐空间推理过程,强调优化机器人动作之前的内部“思考”。
材料中提到的 LaST-R1 是一个典型例子。它不是只优化动作,而是引入 Latent Chain-of-Thought,让模型在生成动作前先在隐空间中推理场景结构、物体关系和物理动态。LAPO 算法进一步把奖励信号同时作用到隐空间推理和动作输出两个层面。
这个思路和自进化 WAM 是互补的。自进化 WAM 负责把候选未来、真实反馈和预测误差记录下来;RL 后训练负责利用这些反馈优化策略。更进一步,RL 不只是让机器人“选中高奖励动作”,还可以让机器人学会“什么样的内部推理会导致高奖励动作”。
如果把它放进完整闭环中,流程可以写成:
- 1. VLA/UAM 负责理解任务和当前场景。2. WAM/VAM 负责生成候选未来和动作。3. 真实机器人执行其中一条候选。4. Reality Alignment 记录真实反馈与预测偏差。5. Evolution Judge 将样本路由到不同 buffer。6. SFT、偏好学习、风险校准和 RL 后训练共同更新模型。
这就是机器人从“会模仿”走向“会复盘”的关键。
11. 数据与评估:不能只看成功率,也不能只看视频像不像
VLA、WAM、VAM、UAM 对数据的需求不同。
VLA 主要依赖观测、语言、动作三元组:
WAM 还需要未来状态或未来 latent:
UAM 还关心语义能力是否在动作微调中退化,因此需要视觉语言理解评测、OOD 物体组合评测和机器人操作评测同时存在。VAM 则需要处理视频预训练数据与机器人控制数据之间的分布差异。
机器人世界模型的数据来源至少包括四类:
1. 机器人遥操作数据:动作标注精确、可执行,但采集成本高。
2. 人类演示视频:场景丰富、成本较低,但缺少机器人动作标签。
3. 仿真数据:可提供深度、物体姿态、碰撞和扰动,但存在 sim-to-real gap。
4. 互联网视频:物理场景多样,但与机器人末端操作分布不一致。
评估也必须分层。普通 VLA 可以看任务成功率、路径效率、动作平滑度和真实机器人成功率;WAM/VAM 还要看未来预测是否真的服务控制。FVD、PSNR、SSIM 这些视频指标只能说明视频像不像,不能说明机器人是否更会行动。
更合理的评估体系至少包括:
| 评估维度 | 问题 | 典型指标 |
|---|---|---|
| 视觉保真度 | 未来是否清晰连贯 | FVD、LPIPS、SSIM |
| 物理一致性 | 接触、重力、遮挡是否合理 | 接触一致性、物体连续性、碰撞预测 |
| 动作可执行性 | 未来能否转成真实动作 | 逆动力学误差、执行成功率 |
| 策略收益 | 世界模型是否提升控制 | 真实机器人成功率、失败率、near-miss 率 |
| 校准能力 | 风险和价值是否可信 | ECE、风险-失败相关性 |
| 语义保留 | VLM 能力是否退化 | VQA、开放词汇识别、OOD 指令成功率 |
WorldEval、dWorldEval、Hi-WM 等工作的重要性就在于,它们开始追问“世界模型能否评估策略、筛选风险、辅助后训练”,而不是只问“视频是否好看”。
12. 从训练到部署:一个融合式机器人系统怎么搭
如果把两篇文章的路线落到工程系统,可以按六阶段组织。
图 18:从数据、动作表示、主干训练到后训练和部署优化,VLA/WAM/UAM/VAM 的工程化需要系统级协同。
第一阶段是 数据整理。需要把多视角图像、语言指令、本体状态、动作轨迹、力觉触觉、任务成功标签和失败日志统一到同一时间轴。没有严格时间同步,后面的世界预测和 Reality Alignment 都会变成模糊的视频相似度比较。
第二阶段是 动作表示设计。如果走自回归 VLA,需要设计 binning、DCT、FAST、VQ-VAE、RVQ 或 ActionCodec 类 tokenizer;如果走扩散或流匹配,需要确定动作归一化、chunk 长度、采样步数和控制频率;如果是跨机器人系统,还要处理不同动作空间的对齐。
第三阶段是 模型架构选择。快速原型可以从 OpenVLA 或轻量 VLA 开始;追求精细操作可以考虑流匹配动作专家;追求物理预判可以加入 WAM/VAM;担心语义退化则引入 UAM 式双通路。
第四阶段是 世界预测与风险头训练。未来状态可以是像素视频、视频 latent、光流、深度、点云、BEV、3D occupancy 或 JEPA 表征。工程上不一定一开始就生成高清长视频,短 horizon latent 预测往往更实用。
第五阶段是 失败样本挖掘与后训练。系统应记录执行前候选 rollout、执行动作、真实未来、预测误差、风险估计、价值估计、人类纠正和失败标签,再路由到不同 buffer。
第六阶段是 部署优化。包括动作平滑、异步推理、KV cache、量化、低步数采样、失败检测、安全约束、控制器兜底和真实机器人 watchdog。
一个简单的训练 trace 可以这样组织:
def build_training_trace(obs, instruction, rollouts, executed_id, actual_future):
"""
将一次 WAM 执行变成可后训练的 trace。
未执行候选不能当强监督真值,但可以记录决策边界。
"""
executed = rollouts[executed_id]
prediction_error = latent_distance(executed["future"], actual_future)
trace = {
"obs": obs,
"instruction": instruction,
"candidates": rollouts,
"executed_action": executed["action"],
"actual_future": actual_future,
"alignment": {
"prediction_error": prediction_error,
"value": executed["scores"]["value"],
"risk": executed["scores"]["risk"],
"uncertainty": executed["scores"]["uncertainty"],
},
}
return trace
def route_trace(trace):
err = trace["alignment"]["prediction_error"]
risk = trace["alignment"]["risk"]
if err > 0.5 and risk < 0.2:
return "overconfident_failure_buffer"
if err > 0.3:
return "world_model_correction_buffer"
return "policy_sft_buffer"
这段伪代码体现了一个重要原则:机器人学习的飞轮不应只靠堆更多演示数据,而应提高每次真实交互的信息密度。
13. 四条路线如何选择
如果目标是快速搭建一个能听懂自然语言、能微调、能部署的机器人策略,VLA 仍然是最直接的起点。它的数据格式清楚,训练目标成熟,开源生态也更完整。重点不是盲目扩大模型,而是选好动作表示、chunk 长度、控制频率和微调方式。
如果任务涉及长时规划、失败预判、接触几何、可变形物体或后训练闭环,WAM 更有吸引力。它让机器人不只问“现在该怎么动”,还问“这样动之后世界会怎样”。代价是训练和推理更重,评估也更难。工程上可以先从短 horizon latent 世界模型开始,不必一上来追求高清长视频。
如果算力有限,但又希望利用视频生成模型中的物理先验,VAM 是现实折中。它适合在冻结视频骨干的基础上训练动作解码器,用较低成本获得视觉动态先验。但需要警惕互联网视频与机器人操作之间的分布差异。
如果担心 VLA 微调损伤 VLM 的语义能力,或者目标是开放场景 OOD 泛化,UAM 的双通路思路值得优先考虑。语义理解和运动控制不一定应该挤在同一条编码路径里,结构分工可能比单纯冻结参数更自然。
如果已经有可用策略,但真实环境中失败多、长尾多、near-miss 多,RL 后训练和自进化 WAM 是下一步。这时最重要的不是再收集一堆普通成功演示,而是把失败附近的高价值状态系统化保存、标注、路由和训练。
可以用下面这张表做决策:
| 目标 | 推荐主线 | 关键注意点 |
|---|---|---|
| 快速原型和开源复现 | VLA | 动作 tokenizer、LoRA、量化、控制频率 |
| 精细连续操作 | 流匹配 VLA / 动作专家 | 动作平滑、接触稳定性、低延迟 |
| 长时任务和失败预判 | WAM | 未来预测是否服务控制,不只看视频指标 |
| 低成本利用物理先验 | VAM | 视频 latent 与机器人动作空间的对齐 |
| 保留语义泛化能力 | UAM | 语义通路与运动通路分工 |
| 持续提升真实机器人能力 | 自进化 WAM + RL | trace 记录、buffer 路由、风险校准 |
14. 核心结论
两篇文章合在一起,其实给出了机器人基础模型演进的完整拼图。
第一,VLA 解决了机器人基础模型的统一接口问题。 它把视觉、语言和动作放进同一个策略框架中,让机器人能理解开放词汇指令,并把 VLM 的语义先验迁移到机器人控制。
第二,动作表示是 VLA 的命门。 自回归、扩散、流匹配路线的差异,本质上都是在回答同一个问题:如何把连续、高维、高频的机器人动作变成模型能稳定学习和实时生成的表示。Action tokenizer 不是附属模块,而是 VLA 的监督语言。
第三,WAM 和 VAM 回应了 VLA 的物理预见短板。 VLA 可以很会“听话”,但不一定会“预判”。WAM 通过未来状态与动作联合建模,让机器人把动作后果纳入决策;VAM 则借用预训练视频模型的物理先验,用更低成本增强策略。
第四,UAM 提醒我们语义和控制需要结构分工。 当 VLM 被动作数据微调成 VLA 时,可能会交“具身税”。双通路结构把语义识别和视觉运动控制分开,是下一代机器人基础模型的重要方向。
第五,RL 后训练和自进化闭环决定长期上限。 真正有价值的不是普通成功样本,而是模型在边界状态下为什么差一点失败、哪里过度自信、怎样纠正才更稳。机器人能力的增长不应只来自更多演示,而应来自每次真实交互的信息密度提升。
一句话总结:机器人基础模型正在从“看见就做”的行为克隆系统,走向“理解语义、预测世界、评估风险、选择动作、复盘失败并持续进化”的物理智能系统。
15. 参考资料
文章与资料链接
- • https://mp.weixin.qq.com/s/tn8VvZiDRFJrKXdUURp5bQ• https://mp.weixin.qq.com/s/GcTa_JYxr7rk1Exm1SHpnQ• https://mp.weixin.qq.com/s?__biz=Mzg5Mzg3ODEwNA==&mid=2247498563&idx=1• https://mp.weixin.qq.com/s?__biz=Mzg4Mjg4NTQxMQ==&mid=2247552437&idx=1• https://mp.weixin.qq.com/s?__biz=MzkwMDcyNDUzMQ==&mid=2247503181&idx=1• https://mp.weixin.qq.com/s?__biz=Mzg5Mjc3MjA5Nw==&mid=2247495290&idx=1• https://mp.weixin.qq.com/s?__biz=MzY0MDM1MDIxNw==&mid=2247483907&idx=1• https://mp.weixin.qq.com/s?__biz=MzI2NDU2ODE2Mg==&mid=2247491771&idx=1
381