具身智能 | JEPA-VLA：视频预测嵌入如何革新机器人视觉-语言-动作模型

转载自公众号：敢敢AUTOHUB

0. 引言

2026年2月，清华大学与华为诺亚方舟实验室联合发表的论文"JEPA-VLA: Video Predictive Embedding is Needed for VLA Models"在机器人学习领域引发了广泛关注。这篇论文直指当前视觉-语言-动作（Vision-Language-Action, VLA）模型的核心痛点：尽管基于大规模预训练视觉-语言模型构建的VLA在机器人操作任务上取得了显著进步，但它们仍然面临样本效率低下和泛化能力受限的双重困境。研究团队通过深入分析发现，这些局限性的根源在于一个长期被忽视的组件——预训练视觉表征。传统的视觉表征无法充分捕捉与任务相关的关键环境信息，也无法有效编码策略先验知识，即无法预测环境在任务成功执行过程中的演变规律。

1. 现有视觉表征的三大缺陷

当前VLA模型中广泛使用的视觉表征主要来自两类预训练方法：基于图像的自监督学习（如DINO系列）和语言-图像对比学习（如CLIP和SigLIP系列）。然而，这两类方法在机器人操作场景下都存在本质性缺陷。

1.1 缺陷一：任务相关性不足

基于图像的自监督学习方法如DINOv2能够生成精确的视觉表征，但这种精确性是**"无差别"的**——它会保留图像中的所有细节信息，包括大量与任务执行无关的背景纹理、光照变化等干扰因素。这种特性源于其训练目标：通过对图像进行各种增强变换（如随机裁剪、颜色抖动）来学习不变性表征。然而，这种不变性在机器人操作中可能适得其反。例如，对随机裁剪的不变性会降低模型对物体位置和空间配置的敏感度，而这些恰恰是机械臂精确抓取的关键信息。

语言-图像对比学习方法如SigLIP则走向另一个极端。它强调与文本指令一致的实体和语义信息，但往往忽略了那些在文本中未被明确提及、却对任务执行至关重要的底层信息。比如，指令"把杯子放到桌子上"会让模型关注"杯子"和"桌子"这两个实体，但可能忽略路径上的障碍物、桌面的倾斜角度等隐含的任务相关因素。

1.2 缺陷二：缺乏时间动态建模能力

更深层的问题在于，这些基于静态图像预训练的表征天然缺乏对时间维度的理解。机器人操作本质上是一个动态过程：机械臂需要理解当前状态，预测执行动作后环境将如何变化，并据此规划下一步行动。然而，仅从单帧图像学习的表征无法捕捉这种时序演变规律。它们就像只看过照片、从未见过视频的观察者，无法理解物体运动的连续性和因果关系。这种缺陷直接导致策略学习效率低下——模型需要通过大量试错才能学会预测动作的后果。

1.3 缺陷三：无法提供有效的策略先验

策略先验是指模型对"成功执行任务时环境应该如何演变"的预期知识。这种先验知识对于高效学习至关重要，它能够引导策略朝着有利的未来状态发展。然而，静态图像表征无法编码这种动态的、面向目标的时序规律。研究团队通过实验验证了这一点：在预测未来10步后任务相关状态变化的任务中，DINOv2和SigLIP的表现都显著弱于基于视频预训练的方法。

图1：三种视觉表征方法的对比。(a) DINO系列保留所有细节但缺乏任务针对性；(b) CLIP/SigLIP系列关注文本提及的实体但忽略隐含信息；(c) V-JEPA 2提供以状态为中心的表征并编码时序规律。

2. V-JEPA 2：视频预测嵌入的突破

面对这些挑战，研究团队将目光投向了在视频上预训练的预测嵌入方法，特别是V-JEPA 2（Video Joint-Embedding Predictive Architecture 2）。V-JEPA 2采用了一种根本不同的预训练范式：它不是学习静态图像的表征，而是学习预测视频中被遮挡部分的潜在表示。这种预测性目标迫使模型关注可预测的、与运动相关的因素，同时自然地忽略那些不可预测的干扰因素（如随机的光照变化、背景噪声）。

V-JEPA 2的第一个关键优势是其对任务相关信息的选择性编码能力。通过在互联网规模的视频数据上进行预训练，V-JEPA 2学会了识别哪些视觉特征是可预测的、因而是重要的。在机器人操作场景中，物体的位置、姿态、运动轨迹等都是高度可预测的，而背景纹理、光照条件等则是不可预测的噪声。V-JEPA 2的预测目标天然地将注意力集中在前者，从而提供了更加以任务为中心的表征。

第二个优势是其内在的时序建模能力。由于V-JEPA 2在视频数据上训练，它的表征中自然编码了物体运动的连续性、动作的因果关系等时序规律。这些时序信息构成了强大的策略先验：模型不仅知道当前环境是什么样的，还"理解"在成功执行任务的过程中环境应该如何演变。这种理解大大加速了策略学习过程，使得模型能够用更少的样本学会复杂的操作技能。

第三个优势是其对干扰因素的鲁棒性。研究团队设计了一个巧妙的实验来验证这一点：他们训练模型从视觉表征中回归光照强度和背景类型等任务无关因素。结果显示，V-JEPA 2在这些任务上的误差显著高于DINOv2和SigLIP，这意味着V-JEPA 2的表征中包含的任务无关信息更少。这种特性使得基于V-JEPA 2的策略在面对环境变化（如不同的光照条件、背景布局）时表现出更强的泛化能力。

3. JEPA-VLA方法：架构设计与融合策略

基于上述实证发现，研究团队提出了JEPA-VLA方法，其核心思想是将

V-JEPA 2的预测性视觉表征自适应地集成

到现有的VLA模型中。这个方法的设计哲学是**"最小侵入、最大效果"**——通过轻量级的架构修改，充分利用V-JEPA 2的优势，同时保留原有VLA模型的预训练知识。

3.1 问题形式化

JEPA-VLA系统包含两个主要组件：一个动作模型和一个冻结的、预训练的V-JEPA 2编码器。动作模型遵循标准的VLA公式，以语言指令、来自N个摄像头的多视角观测以及机器人的本体感觉状态作为输入，生成动作：

V-JEPA 2编码器基于Vision Transformer（ViT）架构，将视频片段映射到视觉表征：

JEPA-VLA的目标是学习一个增强的动作模型，能够有效利用这些预测性视觉表征：

从而提高环境理解能力并生成更可靠的动作。

关键的设计决策是如何将V-JEPA 2表征融合到VLA模型中。研究团队提出了两种融合策略，分别适用于不同的场景。

3.2 前融合策略：适用于从零训练的场景

第一种策略称为"前融合"（Early Fusion），适用于没有经过大规模机器人操作数据预训练的VLA模型。由于大多数VLA都基于Transformer架构构建，一个自然的想法是将V-JEPA 2表征视为额外的输入嵌入，并将其与原始token序列连接起来。这种设计非常轻量级，只需引入一个线性投影层来在融合前对齐表征维度。

前融合策略的有效性源于一个关键观察：对于从零开始训练的VLA，策略主要是从头学习的（尽管它们共享通用的VLM先验）。在这种情况下，直接注入V-JEPA 2表征不会破坏已有的知识，反而能够为策略学习提供强大的视觉基础。实验表明，这种简单的连接方法在LIBERO和LIBERO-plus等基准测试上都取得了显著的性能提升。

3.3 门控融合策略：适用于预训练模型的场景

然而，对于已经在大规模机器人操作数据上进行过预训练的VLA模型，简单的前融合策略会产生负面效果。直接注入额外的token会改变输入分布，干扰预训练的表征，从而破坏已经学习到的先验知识，导致性能下降。这个问题在预训练VLA模型已经内化了强大的任务特定或动作对齐表征时尤为突出。

为了解决这一挑战，研究团队设计了"门控融合"（Gated Fusion）策略。这种策略受到Flamingo模型的启发，通过多个门控交叉注意力层来整合V-JEPA 2表征。在这种设计中，原始VLA的token嵌入作为查询（Query），而V-JEPA 2表征作为键值对（Key-Value）。门控机制使得模型能够自适应地控制预测性视觉表征的贡献——在有益的情况下选择性地关注V-JEPA 2特征，同时保留原始的预训练先验信息。

门控融合的核心优势在于其自适应性。模型可以根据当前任务的需求，动态调整对V-JEPA 2表征的依赖程度。对于那些需要精确时序预测的任务，模型会更多地利用V-JEPA 2的信息；而对于那些主要依赖语义理解的任务，模型则可以更多地依赖原有的VLM表征。这种灵活性使得JEPA-VLA能够在不破坏预训练知识的前提下，有效地从V-JEPA 2迁移知识。

3.4 实现细节与工程优化

在实际实现中，研究团队做了多项工程优化以平衡学习性能、内存使用和推理延迟。首先，并非在每个Transformer解码器层之后都插入门控交叉注意力层，而是采用稀疏融合方案，在解码器堆栈中以固定间隔插入这些层。实验表明，每隔八个解码器层插入一次门控交叉注意力层既高效又足够有效。

其次，为了稳定地融合来自V-JEPA 2的互补信息而不破坏预训练的VLA表征，研究团队遵循Flamingo的设计原则，将新引入的融合层的学习率设置得远低于原始VLA参数的学习率。具体而言，融合层的学习率为到，而原始VLA参数的学习率为。这种差异化的学习率策略确保了新知识的渐进式整合，避免了对已有知识的突然冲击。

第三，在视频表征的提取方面，JEPA-VLA从最近两帧中提取V-JEPA 2表征，并将其与当前观察结果一起用作预测动作时的附加条件信号。这种设计既保留了足够的时序信息，又避免了过长的视频序列带来的计算开销。实验验证表明，使用两帧已经足以捕捉关键的运动线索和状态转换信息。

4. 技术深度分析：V-JEPA 2的工作机制

要深入理解JEPA-VLA的成功，我们需要从理论层面剖析V-JEPA 2的工作机制，以及它为何能够为机器人操作提供如此强大的视觉表征。

4.1 预测性学习的本质优势

V-JEPA 2采用的预测性学习范式与传统的判别式学习有着本质区别。判别式学习（如分类任务）关注的是"这是什么"，而预测性学习关注的是"接下来会发生什么"。对于机器人操作而言，后者显然更加重要——机器人需要预测其动作的后果，而不仅仅是识别当前场景中的物体。

V-JEPA 2通过在潜在空间中预测被遮挡的视频片段，学习到了一种因果性的视觉表征。这种表征不仅编码了物体的外观特征，更重要的是编码了物体之间的交互关系和运动规律。例如，当看到一个杯子被推动时，V-JEPA 2不仅知道这是一个杯子，还"理解"杯子会沿着推力方向移动，可能会碰到其他物体，最终会停在某个位置。这种因果性理解正是策略学习所需要的。

4.2 联合嵌入架构的设计智慧

V-JEPA 2采用的联合嵌入预测架构（Joint-Embedding Predictive Architecture）是其成功的另一个关键因素。与传统的生成式预测方法不同，JEPA不是在像素空间中预测未来帧，而是在抽象的表征空间中进行预测。这种设计带来了两个重要优势。

首先，它避免了像素级预测的高维度问题。像素空间的预测需要模型生成每一个像素的具体数值，这不仅计算成本高昂，而且容易陷入对无关细节的过度拟合。相比之下，表征空间的预测只需要捕捉高层次的语义和结构信息，自然地过滤掉了低层次的噪声。

其次，联合嵌入架构通过对比学习的方式训练，使得模型学习到的表征具有良好的判别性。具体而言，V-JEPA 2使用一个上下文编码器处理可见的视频片段，使用一个目标编码器处理被遮挡的片段，然后训练一个预测器来从上下文表征预测目标表征。这种设计迫使模型学习到能够区分不同时序模式的表征，从而为下游的策略学习提供了丰富的信息基础。

4.3 掩码策略的关键作用

V-JEPA 2在训练过程中采用的掩码策略也值得深入分析。与简单的随机掩码不同，V-JEPA 2使用了时空块掩码（spatiotemporal block masking）策略，即在时间和空间维度上同时遮挡连续的区域。这种策略有两个重要作用。

第一，它迫使模型学习长程的时空依赖关系。由于被遮挡的是连续的时空块，模型不能简单地通过插值相邻帧来完成预测，而必须理解物体的运动规律和场景的动态演变。这种理解正是机器人操作所需要的策略先验。

第二，时空块掩码增强了模型对局部扰动的鲁棒性。在真实世界中，视觉观测经常会受到遮挡、模糊等干扰。通过在训练时模拟这些情况，V-JEPA 2学会了从不完整的信息中推断完整的场景状态，这种能力在实际部署中非常有价值。

5. 总结与启示

JEPA-VLA的研究为机器人学习领域带来了重要的启示。它不仅提出了一个有效的方法，更重要的是，它揭示了视觉表征在VLA模型中的关键作用，以及为什么基于视频的预测性学习特别适合机器人操作任务。

更广泛地说，JEPA-VLA的研究指向了一个更深层次的问题：什么样的视觉表征最适合具身智能？传统的计算机视觉研究主要关注静态图像的理解，但具身智能系统需要在动态环境中进行交互和决策。JEPA-VLA的成功表明，对于具身智能而言，能够捕捉时序动态、预测未来演变的视觉表征可能比仅仅识别当前场景更加重要。这一洞察可能会引导未来的视觉表征研究朝着更加面向动作、面向交互的方向发展。