从VLA到WAM、VAM与UAM：机器人基础模型如何从“看见就做”走向“预测世界再行动”

转载自公众号：敢敢AUTOHUB

0. 引言：两篇文章其实在讲同一件事

过去两年，具身智能和机器人基础模型的讨论变得非常密集。第一篇文章从 VLA、WAM、UAM 三条路线切入，强调机器人策略正在从“视觉语言到动作”的响应式映射，走向“先预测世界、再生成动作、再通过真实反馈持续进化”的闭环系统。第二篇文章则从 VA、VLA、WAM、VAM、强化学习后训练 的演进角度展开，重点梳理了 VLA 内部的自回归、扩散、流匹配三类动作生成机制，以及视频生成模型、物理先验和 RL 后训练如何继续推高机器人泛化能力。

如果把两篇文章合起来看，它们并不是两套互相竞争的分类，而是同一条技术主线的不同切面：

1. VA 到 VLA：机器人从只看图像输出动作，发展到能理解自然语言指令并生成动作。

2. VLA 内部演进：动作生成从自回归 token、扩散去噪，继续走向流匹配和动作专家。

3. WAM 与 VAM：模型不再只预测动作，而是引入未来视频、未来 latent 或世界状态预测，让动作带有物理后果约束。

4. UAM：在 VLA 微调中重新划分语义理解和视觉运动控制的职责，避免动作数据侵蚀 VLM 的语义能力。

5. RL 与自进化闭环：机器人把真实执行中的成功、失败、near-miss、预测误差和候选轨迹转化为后训练资产。

因此，这篇融合版文章的核心判断是：机器人基础模型正在从行为克隆式的模仿系统，演进为同时具备语义理解、物理预测、动作生成、风险评估和自我修正能力的世界交互模型。

图 1：VLA、WAM、UAM 的核心区别。VLA 强调视觉语言到动作，WAM 强调动作之前预测未来，UAM 强调语义通路和运动控制通路的结构分工。

从建模目标看，VLA、WAM、UAM/VAM 的差别可以用几组公式抓住。VLA 学习的是当前观测和语言指令条件下的动作分布：

WAM 进一步要求模型学习未来状态与动作之间的联合分布：

VAM 则可以看作 WAM 的轻量化或工程折中版本，它不一定显式生成完整未来视频，而是借助预训练视频生成模型的 latent 表征作为物理先验：

UAM 关注的问题又不同。它不是只问“动作怎么生成”，而是问：当 VLM 被微调成 VLA 时，如何保住原本的开放词汇视觉语言理解能力。因此，UAM 的核心不只是输出动作，而是通过双通路结构把语义识别压力和运动控制压力分开。

这几个方向合起来，形成了机器人基础模型的一条清晰演进线：VA 让机器人会模仿，VLA 让机器人听得懂，WAM/VAM 让机器人会预判，UAM 让机器人不忘语义，RL 与自进化闭环让机器人从真实交互中持续变强。

1. 从 VA 到 VLA：机器人控制为什么需要语言

在 VLA 之前，许多端到端机器人策略更接近 VA（Vision-Action）。以 ACT（Action Chunking with Transformers）为代表的方案，核心是学习视觉观测到动作序列的映射。它输入相机图像，输出关节角、末端位姿或夹爪开合等控制量。VA 的优点是链路短、推理快、工程上容易接入高频控制；缺点也很明显：它不理解自然语言任务。

这意味着，如果机器人只训练过“抓红色方块”，它未必能理解“把蓝色圆柱放进盒子里”。即使两个任务的动作结构相似，缺少语言接口的 VA 模型也很难把人类意图迁移到新任务上。开放家庭、办公室、仓储和医院环境中，任务往往不是固定菜单，而是人用自然语言提出的临时目标。因此，机器人策略必须从“视觉到动作”升级为“视觉、语言、动作”的统一建模。

VLA 的突破就在这里。它把视觉编码器、语言模型和动作头连接起来，让机器人不仅看到物体，还能理解“拿起杯子”“把餐桌收拾干净”“避开玻璃杯后把碗放进洗碗机”这类开放指令。RT-1 把多任务机器人控制转成序列建模问题，RT-2 进一步把互联网规模视觉语言模型接入机器人动作生成，OpenVLA 则推动了开源复现路径，用大规模真实机器人演示数据训练通用 VLA，并强调 LoRA 微调、量化部署和社区可复现性。

图 2：VLA 将视觉、语言和动作统一起来。图像提供场景状态，语言提供任务目标，动作头输出可执行控制序列。

一个典型 VLA 系统通常包含四个部分：

1. 视觉编码器：把 RGB、RGB-D、多视角图像或视频切成视觉 token。

2. 语言编码器或 LLM 主干：理解自然语言任务、物体语义、空间关系和常识约束。

3. 多模态融合模块：让视觉 token 与文本 token 在 Transformer 中交互。

4. 动作头或动作解码器：输出 action chunk、动作 token 或连续动作向量。

这里的关键是，VLA 输出的往往不是单个电机命令，而是一段短时动作片段：

这种 action chunk 可以减少模型调用频率，让动作更平滑，也让模型表达“短时运动意图”。例如抓杯子时，机器人不是每一步都重新思考，而是一次生成未来 0.5 到 2 秒的末端位姿、腕部旋转和夹爪闭合信号。

2. 动作 Tokenizer：VLA 的监督语言

VLA 看起来是多模态模型问题，实质上很大一部分难点落在 动作表示 上。语言模型天然擅长预测离散 token，但机器人控制量是连续、高维、高频的。如何把连续动作变成模型能预测、能学习、能泛化的动作 token，直接决定 VLA 的训练效率和部署延迟。

最朴素的做法是把每个动作维度分 bin，把连续值量化成离散 id。RT-2 一类方法就将机器人动作空间离散化，然后像生成文本一样生成动作 token。这种方案容易复用语言模型架构，但也带来误差累积、精度损失和推理延迟问题。

import numpy as np

def uniform_action_tokenize(action_chunk, low, high, bins=256):
    """
    最简单的动作离散化示例。
    action_chunk: [T, D]，T 是动作片段长度，D 是动作维度。
    low/high: 每个动作维度的上下界。
    """
    x = np.clip(action_chunk, low, high)
    scaled = (x - low) / (high - low + 1e-8)
    tokens = np.floor(scaled * (bins - 1)).astype(np.int64)
    return tokens.reshape(-1)

def uniform_action_detokenize(tokens, low, high, T, D, bins=256):
    ids = tokens.reshape(T, D).astype(np.float32)
    scaled = ids / (bins - 1)
    return scaled * (high - low) + low

从公式上看，动作 tokenizer 做的是：

动作 decoder 再把 token 还原为机器人执行的连续动作：

这里的 B 是 token budget。它越大，动作细节越容易保留，但自回归预测要生成的 token 越多，推理越慢；它越小，模型更快，但精细抓取、插入、旋转这类控制动作容易损失。动作 tokenizer 因此不是普通压缩器，而是 VLA 的监督目标设计器。

图 3：ActionCodec 类工作把动作 tokenizer 从“重建器”重新定义为“适合 VLA 学习的动作监督设计器”。

好的动作 tokenizer 至少要满足四个要求：

1. 相似动作对应相似 token：同一种稳定抓取里的轻微手抖不应变成完全不同的 token 序列。

2. 控制 token 预算：过多 token 会拉高自回归推理延迟，过少 token 会损失动作细节。

3. 避免拟合无关噪声：动作数据中的高频抖动、操作者习惯和标注噪声不应被认真编码成语义监督。

4. 降低错误传播：自回归生成时，一个 token 错误不应让后续动作全部崩掉。

图 4：动作表示影响模型训练目标、推理延迟和控制质量。近年的 VLA 讨论已经从“模型多大”转向“动作如何被表示和学习”。

3. VLA 的三类动作生成路线：自回归、扩散与流匹配

第二篇文章将 VLA 内部的动作生成机制分为三条路线，这个分类非常适合补充第一篇文章对动作 token 的讨论。

3.1 自回归路线：把动作当成语言 token 生成

自回归路线的核心思想是，将连续动作离散成动作 token，然后从左到右逐个预测。这种路线最大的优势是可以复用 LLM/VLM 的成熟架构和预训练权重。RT-2 就是这一方向的代表，它把机器人动作离散化为多个 bin，并把动作 id 加入词表，让模型像生成文本一样生成动作。

自回归 VLA 的优点是训练简单、语言能力迁移直接、工程范式清楚；缺点是串行生成带来延迟，动作维度越高、chunk 越长，token 越多。同时，前面 token 的错误可能影响后续 token，导致动作漂移。对于高频控制和精细操作，自回归路线通常需要借助动作压缩、缓存、并行解码或低频策略高频控制器组合来缓解延迟。

3.2 扩散路线：从噪声中生成动作轨迹

扩散路线把动作生成看成一个去噪过程。训练时，模型学习从带噪动作恢复干净动作；推理时，从随机噪声开始迭代去噪，生成符合当前观测和语言指令的动作序列。扩散策略的优势是能并行生成整段动作，天然适合多模态动作分布。同一个目标可能有多种可行抓取路径，扩散模型可以表示这种“一题多解”的动作空间。

缺点是采样需要多步迭代，计算成本较高。虽然可以通过 DDIM、少步采样、蒸馏等方式加速，但采样步数过少可能降低动作质量。因此，扩散路线适合动作多样性强、轨迹全局一致性重要的任务，但实时性优化会成为部署重点。

3.3 流匹配路线：学习从噪声到动作的速度场

流匹配可以看作扩散路线的进一步简化。它不显式模拟复杂扩散过程，而是直接学习从噪声分布流向目标动作分布的速度场。推理时，只需较少采样步数就能生成平滑动作。

π0 系列模型常被用来说明这一路线。材料中提到，π0 采用视觉语言专家与动作专家结合的架构，通过流匹配生成连续动作序列。其价值不只在速度，还在动作的平滑性。对拉拉链、擦拭、旋转瓶盖、插入等接触密集任务来说，动作的微小抖动就可能导致失败，流匹配生成的连续轨迹更符合这类控制需求。

图 5：流匹配路线强调从噪声到动作的连续流动，相比自回归 token 更适合生成平滑连续的 action chunk。

三条路线可以这样对比：

路线	动作表示	优势	局限	适合场景
自回归	离散动作 token	复用 LLM，训练简单，语言迁移好	串行延迟、误差累积、量化损失	开放语言任务、低频控制、快速复现
扩散	连续动作去噪	多模态动作强，整段动作一致	多步采样成本高	复杂轨迹、多个可行动作方案
流匹配	连续速度场	平滑、高效、少步生成	训练与调度仍需精细设计	精细操作、接触密集控制、实时部署

4. VLA 生态：从开源基座到性能标杆

两篇文章都提到，VLA 已经不是单一模型，而是形成了多层生态。不同模型的差异不只在参数规模，也在动作生成路线、数据组织、机器人本体适配和部署目标。

图 6：机器人基础模型路线正在从单一 VLA 扩展到 VLA、WAM、VAM、RL 后训练等多分支融合。

可以按工程定位把代表模型分成几类。

第一类是 语义迁移型 VLA。RT-2、OpenVLA 这类模型强调把 VLM 的互联网语义知识迁移到机器人控制中。OpenVLA 的意义不仅在于模型本身，还在于它把大规模机器人演示、开源权重、LoRA 微调和量化部署组织成社区可复现路线。

第二类是 高性能动作生成型 VLA。π0 系列代表了“视觉语言专家 + 动作专家 + 流匹配”的思路，重点解决动作连续性、接触任务和泛化问题。材料中提到的 π0.5、π0.7 进一步强调知识隔离、提示条件化和世界模型式子目标。

第三类是 轻量化与端侧部署型 VLA。SmolVLA 这类模型的价值在于让普通 GPU 或个人设备也能运行 VLA，为研究者、小团队和边缘设备部署降低门槛。

第四类是 跨本体泛化型 VLA。X-VLA 通过软提示等方式编码机器人本体信息，使模型能够适配不同机器人平台。跨本体泛化非常关键，因为真实机器人领域很少有统一动作空间：双臂、轮式底盘、人形机器人、灵巧手、机械臂末端执行器的控制维度都不同。

第五类是 世界模型融合型 VLA。WALL-A、DreamZero、Motus 等工作强调不只输出动作，还要让模型形成对未来世界变化的预测或 latent 表征。

模型/方向	主要特点	更适合解决的问题
RT-2	将 VLM 语义能力接入机器人动作	语义迁移、开放词汇任务
OpenVLA	开源 VLA 基座，支持微调与社区复现	通用机器人策略原型
SmolVLA	小参数、低资源部署	端侧运行、轻量研究
X-VLA	软提示适配不同机器人本体	跨平台迁移
π0 系列	流匹配与动作专家	精细操作、连续控制
WALL-A / DreamZero / Motus	引入世界模型或视频动作联合建模	长时任务、物理预判、后训练

需要注意的是，参数规模并不是唯一指标。机器人模型的真实价值还取决于控制频率、动作稳定性、失败恢复能力、跨场景泛化和真实机器人成功率。一个更小但能稳定闭环控制的模型，往往比一个只能离线生成漂亮视频的大模型更有工程意义。

5. VLA 的根本局限：强语义不等于强物理预见

VLA 的核心问题在于，它大多仍是从当前观测和语言指令到动作的响应式映射：

它可以知道“杯子”“水槽”“餐桌收拾干净”是什么意思，也可能学过很多抓取和放置轨迹，但它未必显式知道某个动作会让杯子倾斜、滑落、碰到旁边的碗，或者让后续任务进入不可恢复状态。

这种局限在短时抓取中未必明显，因为很多任务靠模仿就能完成。但在长时任务、接触密集任务、可变形物体操作和开放家庭场景中，机器人必须理解动作会如何改变世界。机器人不是在图像里做选择，而是在物理环境里持续干预；每一步动作都会改变下一步观测，而下一步观测又会影响后续动作。

因此，世界模型重新回到机器人学习中心。世界模型的基本形式是：

它不是为了生成“好看的未来视频”，而是为了服务控制、规划、评估和后训练。一个未来视频即使清晰，如果不能被动作控制、不能保持接触关系、不能预测失败风险，也不能算真正的机器人世界模型。

图 7：机器人世界模型可以分为策略内世界模型、学习型模拟器和机器人视频生成三条线。关键问题不是视频像不像，而是能否服务动作决策。

图 8：世界模型进入机器人基础模型后，评估标准从视觉保真度扩展到物理一致性、动作可执行性和策略收益。

6. WAM：把“预测未来”并入动作生成

WAM（World Action Model）可以理解为 VLA 与世界模型的合流。标准 VLA 建模的是：

WAM 建模的是：

这一步的意义不是多输出一段视频，而是让动作生成被未来状态约束。机器人在执行之前先形成关于世界演化的内部表征，再依据这个表征生成动作，就有机会利用物体位移、接触变化、遮挡、风险和任务进度来选择更稳的动作。

图 9：WAM Survey 对 VLA、World Model 和 WAM 的边界做了形式化区分。WAM 的核心是未来状态与动作的联合建模。

WAM 大致可以分成两类。

级联式 WAM 是先预测未来，再从未来反推动作。例如先用视频生成模型合成任务执行过程，再用逆动力学模型从视频里恢复动作。这类方法解释性强，中间未来视频、光流或语义图可以被人检查；问题是误差会层层传递。如果未来视频偏了，动作也会偏；如果逆动力学弱，视频看起来合理也不一定能转成可执行控制。

联合式 WAM 是把未来状态和动作放进同一个生成过程，例如共享一个 DiT 主干，同时去噪未来视频 latent 和动作 latent，或者用多专家 Transformer 让理解专家、视频专家和动作专家共享注意力。这类方法耦合更深，更有可能学到动作与世界变化之间的内在关系，但训练、调度、推理和评估都更复杂。

图 10：级联式 WAM 更可解释，联合式 WAM 更统一。工程上常见路线是先用未来 latent 或短 horizon 预测降低成本，再逐步扩展到长时视频和动作联合生成。

6.1 DreamZero：视频扩散骨干进入闭环控制

DreamZero 适合用来理解联合式 WAM 的工程哲学。它以预训练视频扩散骨干为基础，把视频和动作放进同一个自回归闭环控制流程中。材料中特别强调了几个工程细节：真实观测替换想象帧、异步执行、缓存、量化优化，以及将大规模视频扩散模型推向实时闭环控制。

图 11：DreamZero 将预训练视频扩散骨干改造成闭环 World Action Model，强调未来状态与动作的联合建模。

DreamZero 的核心启发是：未来预测不能无限滚动幻想。真实机器人每执行一段动作，就会得到真实相机反馈。用真实观测替换预测帧，本质上是在闭环中持续校正世界模型，避免预测误差长时间累积。

6.2 Motus：用多专家框架统一理解、世界建模与动作

Motus 则体现另一种思路：用统一多模态框架承载理解、视频生成和动作预测。它引入理解专家、视频专家和动作专家，通过 Mixture-of-Transformers 和 UniDiffuser 式调度支持多种模式：世界模型、VLA、逆动力学、视频生成、视频动作联合预测等。

图 12：Motus 使用理解、视频和动作三类专家，让语义理解、世界建模和动作生成在共享注意力中交换信息。

DreamZero 更强调实时闭环和真实执行对齐；Motus 更强调统一建模和跨具身动作抽象。二者的共同点是，它们都不满足于“看见就做”，而是把未来状态纳入动作生成过程。

6.3 WAM 推理：候选未来与动作绑定

WAM 的推理方式也不同于普通 VLA。它可以同时生成多条 future-action 候选，然后依据价值、风险和不确定性选择执行哪一条。

def wam_candidate_selection(world_action_model, obs, instruction, k=8):
    """
    简化版 WAM 推理流程：
    生成多条 future-action 候选，再根据价值、风险和不确定性选择动作。
    """
    rollouts = []
    for _ in range(k):
        future, action_chunk, scores = world_action_model.sample(
            observation=obs,
            language=instruction,
            return_future=True,
            return_action=True,
        )
        utility = scores["value"] - 0.7 * scores["risk"] - 0.3 * scores["uncertainty"]
        rollouts.append({
            "future": future,
            "action": action_chunk,
            "scores": scores,
            "utility": utility,
        })

    best = max(rollouts, key=lambda item: item["utility"])
    return best["action"], rollouts

图 13：WAM 不只输出动作，还输出与动作绑定的未来候选。这些候选记录了模型当时如何权衡价值、风险和不确定性。

这种机制非常重要。对于真实机器人，未执行的候选不是强监督标签，但它们记录了模型在同一状态下认为哪些路径可行、哪些路径危险、哪些路径不确定。这些信息可以进入偏好学习、风险排序和失败分析。

7. VAM：借用视频生成模型的物理先验

第二篇文章提出的 VAM（Video Action Model）可以放在 WAM 和 VLA 之间理解。WAM 倾向于把世界预测显式纳入动作生成，甚至生成未来视频或未来 latent；VAM 则更务实：它不一定从头训练一个机器人世界模型，而是直接借用预训练视频生成模型的物理先验。

视频生成模型在海量视频上训练，已经隐式学习到物体运动、遮挡、光影、接触和场景变化等规律。VAM 的做法是冻结或部分冻结视频骨干，在 latent space 上训练动作解码器。这样既避免从头训练大规模视频模型的成本，又能把视频模型的视觉动态先验迁移到机器人控制中。

图 14：VAM 借用预训练视频模型的 latent 表征，把视频先验作为动作策略的输入或中间表示。

VPP（Video Prior for Policy）就是这一思路的代表。它冻结预训练视频扩散模型主干，只训练轻量动作解码器。相比 WAM，VAM 的优势是训练成本低、样本效率高、部署更轻；局限是物理先验更隐式，模型为什么做出某种动作不如显式 WAM 容易解释。如果视频模型对机器人末端执行器、接触力、夹爪遮挡等场景建模不足，这种偏差也会传递到动作策略中。

可以把 VAM 理解成一句话：不一定每个机器人团队都能训练自己的世界模型，但可以先借用视频生成模型已经学到的世界动态知识。

方向	世界知识来源	是否显式预测未来	优点	风险
VLA	机器人演示 + VLM 语义先验	通常不显式预测	简洁、成熟、易部署	物理预见不足
WAM	机器人数据 + 视频/世界模型训练	显式预测未来状态或 latent	可解释、可评估、可后训练	训练和推理成本高
VAM	冻结/复用预训练视频模型	通常在 latent 中隐式使用	训练高效、样本效率高	物理先验不透明，任务适配受限

8. UAM：VLA 微调为什么会交“具身税”

UAM（Unified Action Model）关注的是另一类问题：VLA 在动作数据上微调时，可能会损伤原本 VLM 的语义能力。UAM 论文把这种副作用称为 embodiment tax（具身税）。

直观理解是，原本的 VLM 擅长识别物体、理解语言、回答图像问题。但当它被微调成 VLA 时，同一套视觉编码路径被迫同时服务两件事：一方面要保持开放词汇语义理解，另一方面要拟合低层控制信号。机器人动作数据规模通常远小于互联网视觉语言数据，而且分布更窄。如果所有压力都压到同一条主干上，模型可能为了拟合动作而牺牲通用语义表示。

这对开放环境机器人很危险。机器人越需要泛化到新物体、新组合、新指令，就越不能在动作微调时忘掉 VLM 的语义底座。

图 15：UAM 借鉴生物视觉双通路思想：腹侧通路偏语义识别，背侧通路偏视觉运动控制。

UAM 的解决思路是结构分工。它保留原来的 VLM 语义主干，同时引入一个并行的 Dorsal Expert，让它承担控制相关的视觉动态学习。也就是说，语义通路回答“这是什么、目标在哪里、指令约束是什么”，运动通路回答“怎么接近、怎么接触、未来局部动态如何变化”。

import torch
import torch.nn as nn

class UnifiedActionModel(nn.Module):
    """
    简化版 UAM 结构示意：
    VLM 语义通路负责语言接地，Dorsal Expert 负责视觉动态，
    本体感受编码器提供身体状态，动作头融合后生成 action chunk。
    """
    def __init__(self, vlm, dorsal_expert, proprio_encoder, action_head):
        super().__init__()
        self.vlm = vlm
        self.dorsal = dorsal_expert
        self.proprio = proprio_encoder
        self.action_head = action_head

    def forward(self, images, instruction_ids, proprio_state):
        semantic_tokens = self.vlm.encode(images, instruction_ids)
        motion_tokens = self.dorsal.predict_midlevel_dynamics(images)
        body_tokens = self.proprio(proprio_state)

        fused = torch.cat([semantic_tokens, motion_tokens, body_tokens], dim=1)
        action_chunk = self.action_head(fused)
        return action_chunk

UAM 对 VLA/WAM 的启发是：不要把所有能力都塞进一个单一编码器里。未来更合理的架构可能是：

1. 语义通路负责开放词汇视觉语言理解。2. 世界动态通路负责未来状态、运动区域、接触趋势和风险。3. 本体通路负责关节、末端位姿、夹爪、力反馈。4. 动作专家负责把这些 token 融合成可执行 action chunk。

换句话说，UAM 不是否定 VLA 或 WAM，而是给它们补了一条结构原则：语义、动态、身体状态和动作生成需要有明确分工。

9. 自进化 WAM：把真实执行变成训练资产

第一篇文章中最有工程价值的一部分，是自进化 WAM。普通 VLA 的链路是：

普通 WAM 往前走一步：

自进化 WAM 的关键是，在线推理中产生的想象过程不会被丢弃，而是被真实执行结果校准、筛选、归档，并进入后续训练：

这套机制的核心不是“机器人自己幻想数据训练自己”，而是 机器人把真实执行校准过的想象过程变成可审计、可筛选、可训练的资产。

图 16：自进化 WAM 将在线候选 rollout、真实执行结果、预测误差、失败原因和训练路由组织成闭环。

一个可落地的自进化 WAM 可以分成四层。

第一层是 Reality-to-Latent Interface。它把现实世界压缩成统一输入包，包括多视角图像、短视频、深度、点云、本体状态、夹爪开合、力反馈、历史动作、语言目标和安全约束。这个输入包可以称为 conditioning packet，其中包含 world latent、goal tokens、body tokens 和 past action tokens。

第二层是 Online Imagination Engine。它基于 conditioning packet 生成多条 future-action rollout。每条候选都包含预测未来、动作 chunk、价值估计、风险估计、不确定性、失败原因和轨迹 embedding。

第三层是 Reality Alignment。它把被执行候选的 imagined future 与 actual future 对齐，拆出视觉预测误差、接触误差、时序误差、风险低估、价值过度自信、near-miss 分数和可恢复性下降等信号。

第四层是 Autonomous Evolution Engine。它由 Failure Knowledge Extractor、Evolution Judge 和 Training Agent 组成，把连续日志转成结构化训练样本，并决定样本进入哪个 buffer、使用什么 loss、权重多大。

def judge_self_evolving_trace(trace):
    """
    Self-Evolving WAM 的样本路由示例。
    被执行 rollout 可产生强监督；
    未执行 rollout 只用于偏好、排序和边界分析。
    """
    executed = trace["executed"]
    candidates = trace["candidates"]
    align = trace["alignment"]
    failure = trace["failure_record"]

    routes = []

    if align["prediction_error"] > 0.45:
        routes.append({
            "buffer": "world_model_correction",
            "loss": "future_latent_alignment",
            "weight": min(2.0, 1.0 + align["prediction_error"]),
            "reason": "imagined future diverged from actual future",
        })

    if align["risk_underestimate"] > 0.30:
        routes.append({
            "buffer": "risk_calibration",
            "loss": "risk_head_regression",
            "weight": 1.5,
            "reason": "risk head was overconfident",
        })

    if failure["type"] in {"object_slip", "collision", "wrong_contact_point"}:
        routes.append({
            "buffer": "failure_recovery_sft",
            "loss": "corrective_action_supervision",
            "weight": 1.8,
            "reason": f"contact-related failure: {failure['type']}",
        })

    preference_pairs = build_preference_pairs(
        executed_rollout=executed,
        candidate_rollouts=candidates,
        actual_outcome=trace["actual_future"],
    )
    if preference_pairs:
        routes.append({
            "buffer": "candidate_preference",
            "loss": "preference_ranking",
            "weight": 0.7,
            "reason": "non-executed candidates record decision boundaries",
        })

    return routes

这里必须守住一个边界：未执行的 K-1 条候选不能当作真实监督标签，因为它们没有被现实验证。但它们可以用于偏好学习、风险排序、候选多样性和反事实分析。强监督来自被执行轨迹与真实结果之间的对齐误差。

自进化 WAM 至少应该维护四类 buffer：

Buffer	存放内容	训练目标
policy SFT buffer	真实成功或人工纠正后的高质量动作	行为监督微调
world model correction buffer	想象未来与真实未来偏差大的样本	未来 latent / 视频预测校正
risk calibration buffer	风险低估、价值过度自信、near-miss 样本	风险头和价值头校准
candidate preference buffer	同一状态下多候选排序关系	偏好学习、风险排序

这样的训练飞轮比普通行为克隆复杂，但错误归因更清楚：世界预测错了就修世界模型，动作解码错了就修动作头，风险估计错了就修校准头，语言目标错了再回到语义通路或任务分解模块。

10. 强化学习后训练：优化动作，也优化“思考过程”

第二篇文章补充了另一个关键环节：强化学习后训练。VLA、WAM、VAM 在预训练阶段大多依赖行为克隆。行为克隆让模型模仿专家演示，但它学到的是“这个场景下该做什么”，不一定知道“为什么这样做”以及“偏离后如何恢复”。

强化学习提供了一条从模仿走向适应的路径。它让机器人通过环境反馈优化策略，尤其适合处理演示数据覆盖不到的长尾状态。

图 17：LaST-R1 将强化学习目标从动作空间扩展到隐空间推理过程，强调优化机器人动作之前的内部“思考”。

材料中提到的 LaST-R1 是一个典型例子。它不是只优化动作，而是引入 Latent Chain-of-Thought，让模型在生成动作前先在隐空间中推理场景结构、物体关系和物理动态。LAPO 算法进一步把奖励信号同时作用到隐空间推理和动作输出两个层面。

这个思路和自进化 WAM 是互补的。自进化 WAM 负责把候选未来、真实反馈和预测误差记录下来；RL 后训练负责利用这些反馈优化策略。更进一步，RL 不只是让机器人“选中高奖励动作”，还可以让机器人学会“什么样的内部推理会导致高奖励动作”。

如果把它放进完整闭环中，流程可以写成：

1. VLA/UAM 负责理解任务和当前场景。2. WAM/VAM 负责生成候选未来和动作。3. 真实机器人执行其中一条候选。4. Reality Alignment 记录真实反馈与预测偏差。5. Evolution Judge 将样本路由到不同 buffer。6. SFT、偏好学习、风险校准和 RL 后训练共同更新模型。

这就是机器人从“会模仿”走向“会复盘”的关键。

11. 数据与评估：不能只看成功率，也不能只看视频像不像

VLA、WAM、VAM、UAM 对数据的需求不同。

VLA 主要依赖观测、语言、动作三元组：

WAM 还需要未来状态或未来 latent：

UAM 还关心语义能力是否在动作微调中退化，因此需要视觉语言理解评测、OOD 物体组合评测和机器人操作评测同时存在。VAM 则需要处理视频预训练数据与机器人控制数据之间的分布差异。

机器人世界模型的数据来源至少包括四类：

1. 机器人遥操作数据：动作标注精确、可执行，但采集成本高。

2. 人类演示视频：场景丰富、成本较低，但缺少机器人动作标签。

3. 仿真数据：可提供深度、物体姿态、碰撞和扰动，但存在 sim-to-real gap。

4. 互联网视频：物理场景多样，但与机器人末端操作分布不一致。

评估也必须分层。普通 VLA 可以看任务成功率、路径效率、动作平滑度和真实机器人成功率；WAM/VAM 还要看未来预测是否真的服务控制。FVD、PSNR、SSIM 这些视频指标只能说明视频像不像，不能说明机器人是否更会行动。

更合理的评估体系至少包括：

评估维度	问题	典型指标
视觉保真度	未来是否清晰连贯	FVD、LPIPS、SSIM
物理一致性	接触、重力、遮挡是否合理	接触一致性、物体连续性、碰撞预测
动作可执行性	未来能否转成真实动作	逆动力学误差、执行成功率
策略收益	世界模型是否提升控制	真实机器人成功率、失败率、near-miss 率
校准能力	风险和价值是否可信	ECE、风险-失败相关性
语义保留	VLM 能力是否退化	VQA、开放词汇识别、OOD 指令成功率

WorldEval、dWorldEval、Hi-WM 等工作的重要性就在于，它们开始追问“世界模型能否评估策略、筛选风险、辅助后训练”，而不是只问“视频是否好看”。

12. 从训练到部署：一个融合式机器人系统怎么搭

如果把两篇文章的路线落到工程系统，可以按六阶段组织。

图 18：从数据、动作表示、主干训练到后训练和部署优化，VLA/WAM/UAM/VAM 的工程化需要系统级协同。

第一阶段是 数据整理。需要把多视角图像、语言指令、本体状态、动作轨迹、力觉触觉、任务成功标签和失败日志统一到同一时间轴。没有严格时间同步，后面的世界预测和 Reality Alignment 都会变成模糊的视频相似度比较。

第二阶段是 动作表示设计。如果走自回归 VLA，需要设计 binning、DCT、FAST、VQ-VAE、RVQ 或 ActionCodec 类 tokenizer；如果走扩散或流匹配，需要确定动作归一化、chunk 长度、采样步数和控制频率；如果是跨机器人系统，还要处理不同动作空间的对齐。

第三阶段是 模型架构选择。快速原型可以从 OpenVLA 或轻量 VLA 开始；追求精细操作可以考虑流匹配动作专家；追求物理预判可以加入 WAM/VAM；担心语义退化则引入 UAM 式双通路。

第四阶段是 世界预测与风险头训练。未来状态可以是像素视频、视频 latent、光流、深度、点云、BEV、3D occupancy 或 JEPA 表征。工程上不一定一开始就生成高清长视频，短 horizon latent 预测往往更实用。

第五阶段是 失败样本挖掘与后训练。系统应记录执行前候选 rollout、执行动作、真实未来、预测误差、风险估计、价值估计、人类纠正和失败标签，再路由到不同 buffer。

第六阶段是 部署优化。包括动作平滑、异步推理、KV cache、量化、低步数采样、失败检测、安全约束、控制器兜底和真实机器人 watchdog。

一个简单的训练 trace 可以这样组织：

def build_training_trace(obs, instruction, rollouts, executed_id, actual_future):
    """
    将一次 WAM 执行变成可后训练的 trace。
    未执行候选不能当强监督真值，但可以记录决策边界。
    """
    executed = rollouts[executed_id]
    prediction_error = latent_distance(executed["future"], actual_future)

    trace = {
        "obs": obs,
        "instruction": instruction,
        "candidates": rollouts,
        "executed_action": executed["action"],
        "actual_future": actual_future,
        "alignment": {
            "prediction_error": prediction_error,
            "value": executed["scores"]["value"],
            "risk": executed["scores"]["risk"],
            "uncertainty": executed["scores"]["uncertainty"],
        },
    }
    return trace

def route_trace(trace):
    err = trace["alignment"]["prediction_error"]
    risk = trace["alignment"]["risk"]
    if err > 0.5 and risk < 0.2:
        return "overconfident_failure_buffer"
    if err > 0.3:
        return "world_model_correction_buffer"
    return "policy_sft_buffer"

这段伪代码体现了一个重要原则：机器人学习的飞轮不应只靠堆更多演示数据，而应提高每次真实交互的信息密度。

13. 四条路线如何选择

如果目标是快速搭建一个能听懂自然语言、能微调、能部署的机器人策略，VLA 仍然是最直接的起点。它的数据格式清楚，训练目标成熟，开源生态也更完整。重点不是盲目扩大模型，而是选好动作表示、chunk 长度、控制频率和微调方式。

如果任务涉及长时规划、失败预判、接触几何、可变形物体或后训练闭环，WAM 更有吸引力。它让机器人不只问“现在该怎么动”，还问“这样动之后世界会怎样”。代价是训练和推理更重，评估也更难。工程上可以先从短 horizon latent 世界模型开始，不必一上来追求高清长视频。

如果算力有限，但又希望利用视频生成模型中的物理先验，VAM 是现实折中。它适合在冻结视频骨干的基础上训练动作解码器，用较低成本获得视觉动态先验。但需要警惕互联网视频与机器人操作之间的分布差异。

如果担心 VLA 微调损伤 VLM 的语义能力，或者目标是开放场景 OOD 泛化，UAM 的双通路思路值得优先考虑。语义理解和运动控制不一定应该挤在同一条编码路径里，结构分工可能比单纯冻结参数更自然。

如果已经有可用策略，但真实环境中失败多、长尾多、near-miss 多，RL 后训练和自进化 WAM 是下一步。这时最重要的不是再收集一堆普通成功演示，而是把失败附近的高价值状态系统化保存、标注、路由和训练。

可以用下面这张表做决策：

目标	推荐主线	关键注意点
快速原型和开源复现	VLA	动作 tokenizer、LoRA、量化、控制频率
精细连续操作	流匹配 VLA / 动作专家	动作平滑、接触稳定性、低延迟
长时任务和失败预判	WAM	未来预测是否服务控制，不只看视频指标
低成本利用物理先验	VAM	视频 latent 与机器人动作空间的对齐
保留语义泛化能力	UAM	语义通路与运动通路分工
持续提升真实机器人能力	自进化 WAM + RL	trace 记录、buffer 路由、风险校准

14. 核心结论

两篇文章合在一起，其实给出了机器人基础模型演进的完整拼图。

第一，VLA 解决了机器人基础模型的统一接口问题。 它把视觉、语言和动作放进同一个策略框架中，让机器人能理解开放词汇指令，并把 VLM 的语义先验迁移到机器人控制。

第二，动作表示是 VLA 的命门。 自回归、扩散、流匹配路线的差异，本质上都是在回答同一个问题：如何把连续、高维、高频的机器人动作变成模型能稳定学习和实时生成的表示。Action tokenizer 不是附属模块，而是 VLA 的监督语言。

第三，WAM 和 VAM 回应了 VLA 的物理预见短板。 VLA 可以很会“听话”，但不一定会“预判”。WAM 通过未来状态与动作联合建模，让机器人把动作后果纳入决策；VAM 则借用预训练视频模型的物理先验，用更低成本增强策略。

第四，UAM 提醒我们语义和控制需要结构分工。 当 VLM 被动作数据微调成 VLA 时，可能会交“具身税”。双通路结构把语义识别和视觉运动控制分开，是下一代机器人基础模型的重要方向。

第五，RL 后训练和自进化闭环决定长期上限。 真正有价值的不是普通成功样本，而是模型在边界状态下为什么差一点失败、哪里过度自信、怎样纠正才更稳。机器人能力的增长不应只来自更多演示，而应来自每次真实交互的信息密度提升。

一句话总结：机器人基础模型正在从“看见就做”的行为克隆系统，走向“理解语义、预测世界、评估风险、选择动作、复盘失败并持续进化”的物理智能系统。

15. 参考资料

文章与资料链接

• https://mp.weixin.qq.com/s/tn8VvZiDRFJrKXdUURp5bQ• https://mp.weixin.qq.com/s/GcTa_JYxr7rk1Exm1SHpnQ• https://mp.weixin.qq.com/s?__biz=Mzg5Mzg3ODEwNA==&mid=2247498563&idx=1• https://mp.weixin.qq.com/s?__biz=Mzg4Mjg4NTQxMQ==&mid=2247552437&idx=1• https://mp.weixin.qq.com/s?__biz=MzkwMDcyNDUzMQ==&mid=2247503181&idx=1• https://mp.weixin.qq.com/s?__biz=Mzg5Mjc3MjA5Nw==&mid=2247495290&idx=1• https://mp.weixin.qq.com/s?__biz=MzY0MDM1MDIxNw==&mid=2247483907&idx=1• https://mp.weixin.qq.com/s?__biz=MzI2NDU2ODE2Mg==&mid=2247491771&idx=1