转载自公众号:敢敢AUTOHUB
1. 博客导读
这篇适合在你已经知道 VLA 基础以后再看。它的目标不是把模型名字背下来,而是让你能在面试里快速回答“这个模型输入什么、怎么生成动作、为什么这样设计、和别的模型区别在哪”。
如果你只想应付面试,优先掌握 RT-2、OpenVLA、ACT、Diffusion Policy、π0、GR00T、SmolVLA、RDT-1B 这八个词。
如果你想讲出项目取舍,重点掌握“动作表示、推理延迟、数据规模、跨 embodiment、部署方式”这五个维度。
本文目标:把 RT-2、OpenVLA、ACT、Diffusion Policy、RDT-1B、π0、GR00T、SmolVLA 放到同一个框架里比较。面试时不要只背“某模型有什么创新”,而要能说清楚:输入输出、动作表示、训练数据、推理方式、适用场景、缺点和改进方向。
2. 阶段二总图谱
| 模型/方法 | 核心动作表示 | 典型优势 | 典型短板 | 面试关键词 |
|---|---|---|---|---|
| RT-2 | 离散 action token(动作 token) |
复用 VLM,语言和动作统一成 token | 离散误差、推理延迟、闭环控制压力 | web knowledge transfer(互联网知识迁移)、action tokenization(动作 token 化) |
| OpenVLA | 开源 action-token VLA(动作 token 路线 VLA) |
开源、可复现、适合二次微调 | 默认动作空间和数据混合要适配项目 | Prismatic、7B、Open X 数据 |
| ACT | CVAE(条件变分自编码器) + action chunk(动作块) |
小数据友好、工程闭环快、动作连贯 | 语言泛化弱,依赖任务内数据 | CVAE latent(条件 VAE 潜变量)、temporal ensemble(时间集成) |
| Diffusion Policy | 条件扩散生成连续轨迹 | 多峰动作、平滑轨迹、接触任务友好 | 多步采样慢,部署需加速 | denoising(去噪)、trajectory distribution(轨迹分布) |
| RDT-1B | Diffusion Transformer(扩散 Transformer) + action chunk |
大模型策略、输入模态丰富 | 算力和数据要求更高 | language + RGB + state |
| π0 | VLA + flow matching action model(流匹配动作模型) |
连续动作、跨 embodiment、推理更快 | 训练和数据工程复杂 | flow matching(流匹配)、action expert(动作专家模块) |
| GR00T | 快慢系统,VLM + DiT | 人形机器人、合成数据、系统化生态 | 对硬件和数据链路要求高 | System 1/2、humanoid foundation model |
| SmolVLA | 轻量 VLM + flow action expert(流式动作专家) |
小模型、开源、异步推理、低成本硬件 | 能力上限受模型和数据规模限制 | 450M、LeRobot、async inference(异步推理) |
3. Q1:RT-2 为什么能把动作也用“文本 token”表示?工程优势和问题是什么?
3.1 面试官问法
- • RT-2 为什么可以直接用 VLM 生成机器人动作?
- • action tokenization 的好处是什么?
- • 离散动作 token 相比连续动作有什么问题?
3.2 考察点
面试官想看你是否理解 RT-2 的关键不是“用了大模型”,而是把机器人动作序列纳入语言模型的 token 生成范式。
3.3 30 秒回答
RT-2 把连续机器人动作离散化,再映射成类似文本 token(离散序列单元) 的形式,让 VLM(Vision-Language Model,视觉语言模型) 可以在同一个序列建模框架里同时学习语言、视觉和动作。优势是能复用互联网图文预训练带来的语义知识,工程上也能沿用 autoregressive generation(自回归生成) 框架;问题是动作精度受离散 bin 限制,多 token 生成有延迟,而且机器人闭环控制需要额外安全层。
3.4 2-3 分钟展开回答
RT-2 的核心思想是把机器人动作当成一种“新语言”。原始动作可能是末端位姿增量、旋转、夹爪开合等连续值,模型先把每个维度离散化到有限 bin(离散区间),再编码成 token。这样训练时可以把 web-scale(互联网规模) VLM 数据和机器人轨迹数据混合,让模型既学视觉语言语义,也学在给定图像和指令下生成动作 token。
工程优势有三点。
第一,统一接口。语言 token 和动作 token 都能放进 Transformer(基于注意力机制的序列建模架构) 自回归框架,不需要完全重写模型范式。
第二,语义迁移。VLM 在互联网图文中学到的物体、关系、常识可以迁移到机器人任务,比如识别“可乐罐”“抽屉”“垃圾”这些类别。
第三,任务泛化。语言指令可以组合新目标和新动词,模型有机会把语义泛化到动作。
但问题也很明确。机器人动作是连续控制,离散化会带来量化误差;自回归生成多个动作 token 会增加延迟;动作 token 不天然保证平滑、限速和碰撞安全。因此真实部署时要加动作后处理、低层控制器、安全过滤和频率管理。
3.5 常见追问
- • 为什么不是直接输出浮点数?
- • action token 的 bin 数怎么选?
- • RT-2 类方案是否适合高精度装配?
3.6 高分追问回答
直接输出浮点数更贴近控制,但很难直接复用语言模型的 token 生成目标。RT-2 选择 tokenization 是为了把动作纳入 VLM 的生成空间。bin 数是精度和学习难度的折中:bin 太少,动作粗糙;bin 太多,类别稀疏、训练更难、生成更慢。
高精度装配不适合完全依赖离散 action token。更合理的是 VLM 负责语义和阶段选择,低层用连续控制、力控、视觉伺服或专门策略完成精细操作。
4. Q2:OpenVLA 为什么重要?和 RT-2 最大区别是什么?
4.1 面试官问法
- • OpenVLA 的贡献是什么?
- • OpenVLA 为什么能成为很多 VLA 项目的 baseline?
- • 参数少是否一定说明模型更强?
4.2 考察点
这题考论文理解和实验判断。不要把“开源”当成唯一答案,要讲训练配方、数据混合、动作输出和可复现价值。
4.3 30 秒回答
- • *OpenVLA 的重要性在于它提供了一个开源、可复现的通用 VLA baseline。**它基于开源 VLM 架构和大规模机器人数据训练,让研究者可以微调、部署和对比。和 RT-2 相比,OpenVLA 的重点不是提出 action token 概念,而是把 VLA 做成开放生态下可用的模型和训练流程。
4.4 2-3 分钟展开回答
OpenVLA 常被问,是因为它连接了两个需求:一是学术上需要可复现 baseline,二是工程上需要能拿来 fine-tune(微调) 的开源模型。RT-2 很有代表性,但不少实现细节和训练数据不完全开放;OpenVLA 则让大家可以在自己的机器人数据上做二次训练。
OpenVLA 的典型输入是图像和语言,输出是离散化的机器人动作。它仍然保留 action token 路线,但更强调开放训练、数据混合和模型适配。面试里可以这样比较:
• RT-2 更像证明“VLM 的 web knowledge 可以迁移到机器人控制”。
• OpenVLA 更像提供“开源 VLA 基座和微调起点”。
• 两者都受
action token 离散化和自回归延迟影响
- 。• 如果项目强调连续控制和低延迟,可能要接 diffusion/flow action head 或改成 chunked continuous action。
参数少但成功率高,不一定说明架构绝对更强。 机器人 benchmark 受数据分布、动作空间、评测任务、控制频率、相机设置影响很大。回答时要避免简单说“参数少 7 倍所以更优”,而要说它在特定评测协议下实现了更好的数据/模型匹配。
4.5 常见追问
- • 如果用 OpenVLA 迁移到自己的机械臂,第一步改什么?
- • OpenVLA 的动作空间不匹配怎么办?
- • OpenVLA 适合做高频控制吗?
4.6 高分追问回答
第一步不是直接训练,而是对齐 data schema(数据格式规范):相机视角、图像尺寸、语言标注、机器人状态、动作维度、控制频率和归一化方式。动作空间不匹配时,需要做 action adapter(动作适配器),例如把模型输出映射到本机 EEF delta(末端执行器增量) 或 joint command(关节命令);必要时重新定义 tokenization 或改连续 action head。
OpenVLA 默认不适合直接做高频低层控制。更稳的做法是让它输出低频动作或短轨迹,再由低层控制器插补执行;或者把 OpenVLA 作为高层语义基座,下面接 ACT/Diffusion/Flow 策略。
5. Q3:ACT 的训练和推理流程是什么?
5.1 面试官问法
- • ACT 为什么要用 CVAE?
- • action chunking 解决了什么问题?
- • ACT 推理时 temporal ensemble 是怎么做的?
5.2 考察点
ACT 是小数据机器人项目里非常高频的 baseline。面试官会看你是否真懂训练/推理,而不是只知道名字。
5.3 30 秒回答
-
- • *ACT(Action Chunking with Transformers,基于 Transformer 的动作分块方法)用 Transformer 根据当前图像和机器人状态预测未来一段 action chunk(动作块)。**训练时用
CVAE(Conditional VAE,条件变分自编码器)学一个 latent style(潜在风格),让模型能处理同一任务下多种专家动作模式;推理时从 prior(先验分布) 采样或取均值,生成未来 步动作。为了减少 chunk 边界抖动,通常用 temporal ensemble(时间集成)融合多个时间步预测到的重叠动作。
5.4 2-3 分钟展开回答
ACT 的输入通常是多视角图像、机器人 proprioception(本体感知) 和当前时间信息,输出是未来 步动作。它和普通 BC 最大区别是:不是预测下一步,而是预测一段动作序列。这样可以降低有效 horizon,让模型学到局部行为片段,比如接近、闭合夹爪、抬起、移动。
• *CVAE 的作用是建模动作多样性。**训练时 encoder(编码器) 看专家动作 chunk,把它压成 latent(潜变量);decoder(解码器) 根据视觉状态、机器人状态和 重建动作 chunk。这样同一个观测下,如果专家有多种合理轨迹,模型不必用 MSE(Mean Squared Error,均方误差) 学成平均动作。
推理时没有专家动作,所以从先验 采样或取均值,再由 decoder 输出动作 chunk。Temporal ensemble(时间集成) 的直觉是:每个时刻都会收到过去多次预测中对当前动作的估计,把它们加权平均,可以减少预测边界不连续和抖动。
ACT 的优点是工程简单、小数据可用、推理比多步 diffusion 快。缺点是语言泛化和跨任务泛化依赖数据;如果任务差异很大,需要引入语言条件或更强视觉语义 backbone(主干网络)。
5.5 常见追问
- • ACT 和普通行为克隆区别是什么?
- • CVAE 会不会 posterior collapse?
- • chunk size 怎么选?
5.6 高分追问回答
普通 BC(Behavior Cloning,行为克隆) 学 ,ACT 学 ,它更像短 horizon trajectory policy(短时域轨迹策略)。CVAE 确实可能 posterior collapse(后验坍塌),所以要关注 KL 权重、latent 维度、重建质量和采样多样性。chunk size(动作块长度) 要根据控制频率和任务反应性选:太短退化成单步 BC,太长容易对新观测反应慢。
6. Q4:Diffusion Policy 和传统 BC 相比优势在哪里?
6.1 面试官问法
- • Diffusion Policy 是怎么建模 action space 的?
- • 它建模 joint distribution 还是 marginal?
- • 为什么 diffusion 适合机器人连续动作?
6.2 考察点
这题是阶段四生成模型基础的预告。阶段二重点讲模型直觉和机器人意义。
6.3 30 秒回答
Diffusion Policy(扩散策略)把未来一段动作轨迹看作条件生成对象,在视觉和状态条件下从噪声逐步去噪得到 action trajectory(动作轨迹)。相比 BC 的单点回归,它能建模多峰动作分布和动作间相关性,通常是对整个 action chunk 的 joint distribution(联合分布) 建模,而不是每个时间步独立预测。
6.4 2-3 分钟展开回答
传统 BC 常用 MSE 回归动作。如果同一观测下有多种可行操作,比如从左边绕或从右边绕,MSE 会学到平均轨迹,而平均轨迹可能撞到物体。Diffusion Policy 用生成式建模,可以保留多峰分布。
它通常不是独立预测每一维动作,而是生成未来一段连续动作序列。模型在每个去噪步输入 noisy action chunk(加噪动作块)、视觉特征、机器人状态和时间步 embedding(向量表示),输出噪声或 denoised action(去噪后的动作)。这样动作维度之间、时间步之间的相关性都能被建模。
优势有三点:
- • 连续性:动作轨迹天然连续,适合控制。
- • 多峰性:能表达多个合理策略,而不是平均动作。
- • 闭环性:每次只执行前几步,再根据新观测重采样。
缺点是采样步数多,推理延迟比 ACT 或直接回归高。工程上可以用 DDIM、少步采样、蒸馏、consistency model 或 flow matching 加速。
6.5 常见追问
- • diffusion policy 会不会动作抖动?
- • 为什么不是每个 action dimension 独立扩散?
- • 多步采样慢怎么解决?
6.6 高分追问回答
如果训练数据抖、条件信息不稳定或采样步数太少,diffusion policy 仍然会抖。解决方式包括动作 chunk、temporal smoothness(时间平滑约束)、低层限速、重叠 chunk 融合和更稳定的视觉状态对齐。每个维度独立扩散会破坏动作相关性,比如末端位移、旋转和夹爪开合必须配合,所以通常建模整个轨迹分布。
7. Q5:RDT-1B 和 Diffusion Policy 怎么选?
7.1 面试官问法
- • RDT-1B 和 Diffusion Policy 的定位差异是什么?
- • 什么场景下小模型 DP 更好?
- • 什么场景下应该上大模型策略?
7.2 考察点
这是选型题。面试官看你是否会根据任务、数据、算力做判断,而不是盲目追大模型。
7.3 30 秒回答
Diffusion Policy 更像任务专家,适合数据量中等、任务边界明确、需要平滑连续控制的场景;RDT-1B(Robotics Diffusion Transformer,机器人扩散 Transformer)更像通用机器人策略基座,适合多任务、多模态、多机器人数据和更强泛化需求。数据少、任务单一、部署算力有限时我会先用 DP/ACT;跨任务和语言泛化是主目标时再考虑 RDT/VLA。
7.4 2-3 分钟展开回答
选型可以看四个维度,核心是不要为了追大模型牺牲可验证性和部署闭环。
第一是任务范围。单任务或少数任务,比如固定桌面 pick-and-place,Diffusion Policy 足够强,训练和调试成本更低。多任务、多物体、多语言、多场景时,大模型策略更有优势。
第二是数据规模。DP 可以在相对有限的专家数据上训练出不错结果;RDT 这类大模型更依赖大规模、多样化数据,否则容易过拟合或发挥不出泛化能力。
第三是部署算力。DP 可以做小网络和少步采样,ACT 更快;RDT-1B 对 GPU、显存和推理优化要求更高。
第四是研究目标。如果目标是验证新的 action generation、数据策略或控制闭环,小模型更容易做干净实验;如果目标是做通用策略和跨 embodiment 泛化,大模型更有意义。
7.5 常见追问
- • 如果只能采 100 条 demo,你会选哪个?
- • 如果要支持 20 个任务呢?
- • 大模型策略失败时怎么 debug?
7.6 高分追问回答
100 条 demo(示教轨迹) 我会先选 ACT 或 Diffusion Policy,配合预训练视觉 encoder 和数据增强。20 个任务且语言变化明显时,可以考虑 VLA/RDT,但要保证任务标注、动作 schema 和评测协议统一。大模型失败时要拆开看:视觉是否看对、语言是否理解、状态是否对齐、动作头是否平滑、数据是否覆盖当前场景。
8. Q6:π0、π0.5、GR00T、SmolVLA 的 flow/diffusion action expert 怎么理解?
8.1 面试官问法
- • π0 和传统 VLA 的差异是什么?
- • GR00T 的快慢系统具体怎么分工?
- • SmolVLA 为什么强调异步推理?
8.2 考察点
这是前沿模型理解题。核心不是记模型参数,而是理解“VLM 负责语义,连续生成模型负责动作”的趋势。
8.3 30 秒回答
这些模型共同趋势是把高层语义理解和低层连续动作生成分开:VLM/LLM 处理图像语言上下文,action expert 用 flow matching 或 diffusion transformer 生成连续 action chunk。这样比纯 action token 更适合机器人控制,也比纯小策略更有语义泛化潜力。GR00T 明确做快慢系统,SmolVLA 则把这种思路做轻量化,并通过异步推理减少执行等待。
8.4 2-3 分钟展开回答
π0 的代表性意义是把 VLA 和 flow matching(流匹配) 结合。它不是把动作完全当语言 token,而是让模型在语言和视觉条件下生成连续动作轨迹。Flow matching 学的是从噪声分布到真实动作分布的 velocity field(速度场),推理时沿着向量场把噪声搬运到动作,相比传统 diffusion 有潜在的少步推理优势。
GR00T 的表述更偏系统架构。System 2(慢系统) 类似高层 VLM,负责理解环境和指令、生成计划;System 1(快系统) 负责把计划转成连续机器人动作。这种架构适合人形机器人,因为人形任务既需要语义推理,也需要快速、稳定、全身协调的动作。
SmolVLA 的价值在轻量化和工程可用。它不是一味堆参数,而是强调 450M 级别模型、开源数据、flow matching action expert、视觉 token 减少和异步推理。异步推理的关键是机器人执行当前 action chunk 时,并行请求下一段 chunk,避免“执行完等模型”的空档。
8.5 常见追问
- • flow matching 和 diffusion action head 本质区别是什么?
- • 异步推理会不会用过期观测?
- • 快慢系统是不是一定优于端到端?
8.6 高分追问回答
Flow matching 和 diffusion 都是生成动作分布的方法,但训练目标不同。Diffusion 通常学逐步去噪;flow matching 学连续时间向量场。工程上更关心推理步数、稳定性和是否容易蒸馏。异步推理确实有 stale observation 风险,所以要控制 chunk 长度、队列阈值、融合规则和安全中断。快慢系统不是绝对优于端到端,但在真实部署中更容易调试、插入安全约束和优化延迟。
9. Q7:离散动作 token、ACT、Diffusion、Flow Matching 到底怎么选?
9.1 面试官问法
- • 你项目里为什么不用 RT-2 那种 action token?
- • ACT 和 Diffusion Policy 谁更适合你的任务?
- • Flow matching 是不是一定比 diffusion 好?
9.2 考察点
这是综合 tradeoff 题。高分回答要把“任务类型、数据规模、动作精度、推理延迟、泛化需求”放到一起。
9.3 30 秒回答
如果任务语言语义复杂、动作精度要求中等,可以考虑 action token VLA;如果数据少、任务明确、想快速落地,ACT 是强 baseline;如果动作多峰、接触复杂、需要平滑轨迹,Diffusion Policy 更合适;如果要连续动作同时追求少步推理和大模型融合,可以考虑 flow matching action head。但最终要看数据和部署频率,不是范式越新越好。
9.4 2-3 分钟展开回答
我会先问五个问题。
第一,任务是否强依赖语言泛化?如果只是固定任务,没必要上大 VLA;如果语言组合多,VLA 更有价值。
第二,动作是否需要高精度连续控制?高精度装配、接触、插拔等任务不适合粗离散 token,连续 action head 更合理。
第三,数据量有多少?几十到几百条 demo,ACT/DP 更现实;大规模多任务数据才支撑通用 VLA。
第四,推理预算是多少?自回归 token 和多步 diffusion 都可能慢,需要 action chunk、缓存、少步采样或异步推理。
第五,失败成本多高?如果失败成本高,必须保留安全层、低层控制和 fallback(失败兜底策略),不应该让端到端模型直接裸控。
面试里可以给一个明确结论:我会把 ACT 作为最小可行 baseline,把 Diffusion/Flow 作为动作质量升级方向,把 OpenVLA/π0/SmolVLA 作为语言泛化和多任务扩展方向。

10. Q9:UniVLA、late action model、VQ-VAE 这类思路怎么理解?
10.1 面试官问法
- • UniVLA 的 late action model 是什么?
- • latent action 和直接 action 输出有什么区别?
- • 为什么要在中间加 VQ-VAE 这类模块?
10.2 考察点
这类问题通常是在看你是否理解“先压缩再解码”的分层建模思路。即使你没完整复现过,也要能讲清楚它解决的是动作空间太复杂、直接回归太难、长时序太不稳定这几个问题。
10.3 30 秒回答
UniVLA 这类思路一般是先把复杂动作压缩成 latent action,再通过解码器生成最终动作。late action 的意思是 “先做语义或潜在规划,后做具体动作展开”。这样可以 减少动作空间维度、提高序列建模稳定性,也方便把高层语义和低层控制分开。
10.4 2-3 分钟展开回答
如果面试官提 UniVLA,你可以把它理解成 “分层式 VLA”。它的核心不是某个具体名字,而是这种建模逻辑:
1. 先用视觉语言模块理解当前场景和任务。
2. 再把动作映射到一个更低维、更结构化的 latent space(潜空间)。
3. 最后由 action decoder(动作解码器) 或 VQ-VAE 解码成可执行动作。
这样做的原因有两个。
第一,动作直接回归太难。特别是长时序任务、连续控制、多人类风格示教时,动作分布会非常复杂。latent action 可以把**“连续多解”压缩成更紧凑的表示**。
第二,分层更适合工程。高层可以先决定“做什么”,低层再决定“怎么做”。这和大脑/小脑、快慢系统的思路一致。
VQ-VAE(Vector Quantized VAE,向量量化变分自编码器) 在这里通常承担 “离散化 latent” 的角色。VQ(Vector Quantization,向量量化) 意味着把连续 latent 映射到一组 codebook(码本) 向量里,形成更稳定的符号空间。它的优点是更容易序列化,缺点是会引入量化误差。
10.5 常见追问
- • latent action 为什么有时比直接回归更稳?
- • VQ-VAE 会不会损失动作细节?
- • 这种结构适合什么任务?
10.6 高分追问回答
latent action 更稳,是因为它把高维连续动作先投影到一个结构化空间,减少了直接学习复杂动作分布的难度。VQ-VAE 确实会损失一部分细节,所以它更适合中高层动作计划或短轨迹块,而不是特别精细的力控任务。它适合长时序、多任务、需要层次结构的 VLA 场景。
11. Q10:RTC / real-time chunking 是什么?为什么它和动作 chunk 一起被问?
11.1 面试官问法
- • RTC 你看过吗?解决什么问题?
- • 动作分块增大时,怎么平衡推理延迟和控制精度?
- • 异步推理怎么避免模型等控制器?
11.2 考察点
这题本质是在看你是否理解“机器人不是一次性生成答案,而是边执行边推理”。RTC 的价值在于把大模型生成和机器人执行解耦,减少空等时间。
11.3 30 秒回答
RTC(Real-Time Chunking,实时动作分块)可以理解成边执行边生成动作块:模型不是每次只输出一个动作,而是输出一段短动作块,并在执行当前块时并行生成下一块。这样能降低等待推理的空档,兼顾连续性和实时性。chunk 越大,动作越平滑,但响应越慢;chunk 越小,响应越快,但推理开销和边界抖动会更明显。
11.4 2-3 分钟展开回答
RTC 这类问题通常和 action chunk 一起问,是因为它们解决的是同一个矛盾:机器人需要实时控制,但大模型推理不是瞬时完成的。
可以把控制过程理解为:
• 当前时刻 ,模型根据观测输出 步动作。
• 机器人先执行前 步,。
• 在执行期间,模型并行预测下一段动作块。
• 两段动作之间通过重叠、interpolation(插值) 或 temporal ensemble 缝合。
这样做的好处是减少“机器人在等模型”的空档,也让动作更连续。风险是观测会过期,所以需要设置 chunk 长度上限、重规划触发条件和安全中断机制。
11.5 常见追问
- • RTC 和低层控制器插补是什么关系?
- • 异步推理会不会带来 stale observation?
- • 什么时候不适合用 RTC?
11.6 高分追问回答
RTC 不能替代低层控制器。它只是让策略层推理更符合实时系统。低层控制器负责高频稳定跟踪,RTC 负责中频动作生成。stale observation(过期观测) 可以通过缩短 chunk、实时重规划、冲突检测和安全层来缓解。特别是接触任务、动态障碍任务和高频视觉伺服任务,不适合过长的 chunk。
传统的 Action Chunking(动作分块) 范式(图 A 部分)通过让策略模型一次性预测未来的一段时间步序列(动作块),有效减少了逐帧推理的复合误差。然而,其本质上是一种开环执行模式:机器人完整执行完上一个动作块后,才开始根据最新的观测进行下一次推理。这种方式在块与块的切换处容易产生物理上的不连续跳跃,增加安全中断风险,且难以应对Stale Observation(过期观测)。
相比之下, 模型提出的 Real-Time Chunking(RTC,实时动作分块)(图 B 部分)则是针对大范式模型(如 Diffusion/Flow-based)高推理延迟问题的一种闭环工程优化。RTC 的核心在于引入了异步执行和局部修复(Inpainting)机制:在生成新的动作块时,RTC 算法利用上一个动作块的末端(冻结前缀)作为强约束点,通过轨迹修复(Inpainting)技术生成与当前运动状态完美对齐的新轨迹。这种方式避免了传统的“时序集成”可能带来的“平均动作”偏差,在保证动作稳定连贯的同时,实现了基于实时反馈的闭环控制。

12. Q11:π0.5、π*0.6、π0.7 到底怎么区分?
12.1 面试官问法
- • π0.5、π0.6、π0.7 是同一条路线吗?
- • π*0.6 的星号是什么意思?
- • π0.7 为什么强调 steerable 和 emergent capability?
12.2 考察点
这题考的不是背版本号,而是看你能否把 Physical Intelligence 这条线拆成三类能力:开放环境泛化、经验/RL 提升、可控的组合泛化。如果面试官说“π0.6”,最好先确认是基础 π0.6,还是公开博客里重点讨论的 π*0.6。
12.3 30 秒回答
π0.5 重点是 open-world generalization,通过多机器人、多模态、网页视觉语言数据和高层语义标注做 co-training,让模型能在新家庭、新物体、新布局中完成任务。π*0.6 重点是从经验中学习,用 RECAP 把示教、纠错和强化学习结合起来,提高真实任务的成功率和吞吐。π0.7 重点是 steerable generalist,用语言、元数据、控制模态和视觉子目标等 prompt 控制“怎么做”,并展示组合泛化。
12.4 2-3 分钟展开回答
π0.5 的核心问题是:机器人到了一个没见过的新家,能不能知道“厨房要收拾到哪里、衣服鞋子该放哪里、海绵适合擦污渍”。所以它不是只追求更精细的某个动作,而是通过 heterogeneous co-training 把机器人动作数据、高层语义任务、网页多模态数据和人类 verbal instruction 放在同一套 VLA 训练里,让模型既知道低层怎么动,也知道高层语义应该怎么分解。
π*0.6 的核心问题是:模仿学习做到 50% 成功率不难,但真实部署需要稳定、快速、长时间运行。公开资料里它用 RECAP(RL with Experience & Corrections via Advantage-conditioned Policies) 训练:先有示教,再让人类在模型犯错时接管纠正,最后让机器人从自己的 autonomous experience 里用 RL 提升。星号可以理解成“经过经验和 RL 强化后的 π0.6 specialist”。
π0.7 的核心问题是:一个通用模型能否不针对每个任务单独微调,也能组合已有技能完成新任务。它把 prompt 做得更丰富,不只告诉模型“做什么”,还可以通过 subtask instruction、visual subgoal、speed/quality metadata、control modality label 等信息告诉模型“怎么做”。面试里可以把它概括为:π0.5 扩环境,π*0.6 补可靠性,π0.7 强调可控组合泛化。
12.5 常见追问
- • π0.7 是不是直接替代 π*0.6?
- • visual subgoal 和语言子任务有什么区别?
- • 为什么 π*0.6 要引入机器人自己的失败经验?
12.6 高分追问回答
π0.7 不是简单“版本号更大所以全面替代”。π*0.6 更像对具体高价值任务做 experience/RL 后的 specialist;π0.7 更像把多种数据、策略元信息和子目标统一进一个 generalist prompt 框架。visual subgoal 提供空间布局约束,语言子任务提供语义步骤约束。机器人自己的失败经验很关键,因为真实闭环控制会产生训练集中没有的状态,纠错和 RL 正是在补这个 distribution shift。

13. Q12:GR00T N1.7 面试应该怎么讲?
13.1 面试官问法
- • GR00T N1.7 和早期 GR00T N1/N1.5/N1.6 有什么变化?
- • 它的 System 1 / System 2 架构和普通 VLA 有什么区别?
- • 为什么它强调 humanoid、relative EEF action 和 human video pretraining?
13.2 考察点
这题考的是你能否把 GR00T 当成人形机器人系统栈来讲,而不是只把它当论文模型名。公开资料里 GR00T N1.7 是 NVIDIA Isaac GR00T 的 early access 版本,代码仓库和模型权重已公开,定位是面向 generalized humanoid robot skills 的 open VLA。
13.3 30 秒回答
GR00T N1.7 是面向人形机器人技能的 VLA 模型,核心是双系统 Action Cascade:System 2 用 VLM 做图像语言理解、任务分解和高层 action token;System 1 用 Diffusion Transformer 结合机器人状态,把高层输出去噪成连续动作。和早期版本相比,N1.7 公开资料强调新的 VLM backbone、relative EEF action space、20K 小时 EgoScale human video pretraining,以及更好的语言跟随和泛化。
13.4 2-3 分钟展开回答
面试里不要只说“GR00T 是 NVIDIA 的机器人模型”。更好的说法是:它把通用视觉语言推理和人形机器人连续控制拆开。System 2 负责慢思考,例如理解多视角图像、语言指令和任务上下文,输出更抽象的动作意图;System 1 负责快执行,例如用 diffusion transformer 在实时状态条件下生成可执行的连续动作。
N1.7 值得单独记,是因为它把几个工程点放在一起:第一,VLM backbone 升级到 Cosmos-Reason2-2B / Qwen3-VL 相关架构;第二,用 relative end-effector action 表示动作增量,提高跨机器人和人类数据对齐;第三,加入大量人类第一视角视频预训练,希望把人类操作先验迁移到机器人控制;第四,仓库支持 LeRobot 数据格式、微调、推理和 TensorRT/ONNX 导出。
如果面试官追问“为什么要人类视频”,可以回答:纯遥操作机器人数据贵、慢、覆盖窄,人类第一视角视频更容易规模化,但它没有直接机器人动作标签,所以需要动作表示、embodiment 对齐和后训练把视觉操作先验转成机器人可执行动作。这里的难点不只是模型大,而是数据、动作空间、延迟和部署链路都要对齐。
13.5 常见追问
- • GR00T 的双系统是不是等价于高层规划器加低层控制器?
- •relative EEF action 为什么有利于跨 embodiment?
- • 人类视频预训练会不会学到机器人做不到的动作?
13.6 高分追问回答
双系统和传统 planner/controller 类似,但不完全等价。GR00T 的高层不是显式符号规划器,而是 VLM 产生的高层动作表示;低层也不是经典 PID,而是 learned diffusion action head。relative EEF action 用当前位置的增量表示动作,比绝对坐标更容易跨机器人、跨场景归一化。人类视频确实可能包含机器人无法执行的动作,所以还需要机器人示教、embodiment tags、后训练和安全约束来过滤不可执行行为。
14. Q13:X-VLA 的 soft prompt 为什么适合跨机器人?
14.1 面试官问法
- • X-VLA 的 X 主要指什么?
- • soft-prompted Transformer 怎么处理不同机器人数据?
- • 它和 OpenVLA、π0、GR00T 的区别在哪里?
14.2 考察点
这题看你是否理解 cross-embodiment 的核心矛盾:不同机器人相机、自由度、动作空间、任务数据和控制频率都不一样,直接混训容易互相干扰。X-VLA 的公开项目把重点放在用少量可学习 soft prompts 表示不同数据源/机器人差异。
14.3 30 秒回答
X-VLA 是一个 soft-prompted、flow-matching-based VLA。它不是给每个机器人单独训练一套大模型,而是给不同数据源或 embodiment 引入 learnable embeddings,让模型知道当前样本来自哪类机器人、哪种数据分布。这样可以在标准 Transformer encoder 上更稳定地利用异构数据,并在仿真和真实机器人上做跨 embodiment 适配。
14.4 2-3 分钟展开回答
X-VLA 的面试价值在于回答“异构机器人数据怎么混训”。最朴素的做法是把所有数据直接拼起来训练,但不同机器人之间动作维度、控制语义和视觉视角都不同,模型可能学到冲突分布。X-VLA 的做法是引入 soft prompt:给每类数据源或机器人一组可学习 embedding,作为条件信号注入 Transformer,让同一个主模型在共享能力的同时保留 embodiment-specific 差异。
它的另一个关键词是 simplicity。公开项目描述里强调标准 Transformer encoder、显式区分高维视觉输入和低维状态输入,并使用 flow matching 生成动作。你可以把它和 GR00T 对比:GR00T 更偏 NVIDIA 人形机器人系统栈和部署生态;X-VLA 更偏研究问题,即如何让一个 VLA 在多数据源、多机器人下稳定预训练和快速适配。
如果面试官问“soft prompt 会不会只是给模型加标签”,可以回答:它确实有点像可学习标签,但比手写 one-hot 更灵活,因为 prompt embedding 可以在训练中吸收数据源、机器人形态、控制接口和视觉分布的隐含差异。缺点是它不能自动解决所有动作空间不一致问题,仍需要统一数据 schema、动作归一化和评测协议。
14.5 常见追问
- • soft prompt 和 embodiment tag 有什么区别?
- • X-VLA 为什么仍然需要动作空间对齐?
- • flow matching 在这里解决的是哪个问题?
14.6 高分追问回答
embodiment tag 更像显式类别标识,soft prompt 是可学习连续向量,能承载更多数据源差异。它能帮助模型区分“这条轨迹来自哪种机器人”,但不能替你定义动作含义,所以动作维度、单位、归一化和控制频率仍然要对齐。flow matching 解决的是连续动作分布生成问题,让模型从噪声或中间状态生成一段动作轨迹,适合机器人 action chunk。
15. Q14:这些前沿模型背后的基础问题怎么答?
15.1 面试官问法
- • 为什么现在 VLA 都从 action token 转向 continuous action head?
- • action chunk 越长是不是越好?
- • cross-embodiment 泛化到底难在哪里?
- • RTC、async inference、temporal ensemble 有什么关系?
15.2 考察点
这是综合基础题。面试官真正想听的是你能否从动作表示、时间延迟、数据分布、机器人形态、安全闭环五个角度解释模型设计,而不是把论文名串起来。
15.3 30 秒回答
前沿 VLA 的共同趋势是:VLM 负责语义和任务理解,连续 action head 负责可执行动作,action chunk 负责降低有效控制 horizon,RTC/async inference 负责把大模型延迟藏进执行过程,cross-embodiment 方法负责让不同机器人数据能被同一个模型利用。真正部署时,重点不是模型名字,而是动作空间是否对齐、推理是否实时、低层控制是否稳定、安全层是否能兜底。
15.4 2-3 分钟展开回答
第一,continuous action head 不是否定 action token,而是因为机器人控制天然连续。离散 token 方便复用语言模型训练,但高精度接触、插拔、布料和灵巧手任务需要平滑轨迹和动作相关性,所以 diffusion、flow matching、ACT 这类 chunked continuous policy 更常被问。
第二,chunk 长度是延迟和反应性的折中。长 chunk 能减少模型调用、动作更连贯,但观测更新慢,容易执行过期计划;短 chunk 反应快,但推理压力大,边界抖动明显。RTC 的价值是让模型在机器人执行旧 chunk 时生成新 chunk,并通过 overlap/inpainting 保持一致。
第三,cross-embodiment 难在 “同一个词不代表同一个动作”。不同机器人有不同自由度、夹爪、相机、控制接口和工作空间。可行方法包括 relative EEF action、embodiment tag、soft prompt、action adapter、统一数据 schema,以及在目标机器人上少量后训练。
第四,安全闭环不能省。VLA 输出的动作还要经过限速、碰撞检测、工作空间约束、力/扭矩保护、失败检测和人工接管。面试里说“端到端控制”时要补一句:端到端是策略学习目标,不代表部署时没有控制器和安全层。
15.5 常见追问
- • 如果只能选一个 baseline,你会先选 ACT、DP 还是 VLA?
- • 大模型机器人策略失败时怎么定位?
- • 怎么判断一个新论文是真的提升还是只换了 benchmark?
15.6 高分追问回答
小数据、固定任务先选 ACT/DP;多语言、多任务、多物体再考虑 VLA;跨机器人和开放环境任务才需要更复杂的 generalist。失败定位要拆成 perception、language grounding、state/action normalization、action head、控制器和数据覆盖。判断论文提升时要看是否同一机器人、同一动作空间、同一控制频率、同一评测协议,以及有没有真实闭环实验,而不是只看 headline 成功率。
16. 高频追问补充:Diffusion VLA、动作漂移、长时序语义漂移和达芬奇迁移
这一组问题适合接在 Diffusion Policy、π0、GR00T、SmolVLA 后面。面试官通常会从“你用了 diffusion 做策略”继续追到 action space、多个 diffusion expert 怎么融合、怎么防止长时间漂移,以及迁移到真实手术机器人要改哪里。
16.1 Diffusion model 做动作策略,action space 怎么建模?
Diffusion Policy 通常不是生成单步动作,而是建模未来一段动作序列:
其中 是视觉观测, 是机器人状态, 是语言指令, 是历史观测或动作。动作可以定义在多种空间:
• joint space(关节空间):关节位置、速度或增量,贴近硬件,但跨机器人迁移差。
task space / EEF space(任务空间/末端空间):末端位姿增量、旋转、夹爪命令,更直观,但需要 IK 或低层控制器转换。
hybrid action(混合动作):末端位姿 + 夹爪 + 接触力/速度模式。
latent action(潜在动作):先预测低维技能或动作 latent,再由 decoder 或 controller 解码。
手术机器人里更常见的高层动作是 EEF delta pose、工具尖端 pose、gripper/jaw command 或双臂同步动作;底层再通过 IK、RCM constraint 和安全控制转换成可执行 joint command。
16.2 连续动作空间:建模 joint distribution 还是 marginal?
高分回答要明确:通常建模 action chunk 的 joint distribution,而不是每个维度独立建模 marginal distribution。
原因是机器人动作强相关。工具尖端平移、旋转、夹爪开合、左右臂配合和时间步之间不能独立。例如缝合时,needle driver 的旋转、进针轨迹和夹爪闭合必须协调;如果每个维度独立生成,很容易出现姿态对了但夹爪时机错、或双臂动作相互冲突。
面试可以这样收尾:marginal 预测实现简单,但会丢掉 coordination;diffusion/flow 生成整个 action chunk,本质上就是为了保留动作维度和时间维度之间的相关性。
16.3 多个 diffusion 模型组合:gating 还是 uncertainty-aware ensemble?
如果多个 diffusion expert 负责不同任务、不同视角或不同手术阶段,有两类融合方式。
gating mechanism(门控机制) 是先由 router 根据状态、语言、阶段和不确定性选择一个 expert,或者给每个 expert 分配权重。适合任务边界比较清楚的场景,例如 grasp、pull、cut、suture 各有不同 expert。
uncertainty-aware ensemble(不确定性感知集成) 是多个模型都输出候选 action chunk,再根据 uncertainty 加权融合或重排序。常见不确定性估计包括:
epistemic uncertainty(认知不确定性):模型没见过、不知道,通常用 ensemble variance、MC dropout、不同 checkpoint 输出差异估计。
aleatoric uncertainty(偶然不确定性):数据本身噪声或场景不可观测,例如烟雾、遮挡、反光、组织变形,可用预测分布方差、heteroscedastic head 或 diffusion sample diversity 估计。
对比时要说清楚:epistemic 通常可以通过补数据降低;aleatoric 不一定能消除,只能通过多模态观测、触觉/力觉、保守控制和人工接管降低风险。
16.4 怎么防止 action drift?
action drift(动作漂移) 指策略在长时间执行中逐渐偏离目标,可能来自视觉误差、语言目标遗忘、open-loop chunk 过长、采样随机性或低层跟踪误差。
常见方法:
receding horizon control(滚动时域控制):每次预测 K 步,只执行前 M 步,再用新观测重规划。
temporal smoothness loss(时间平滑损失):惩罚相邻动作差异,例如 。
consistency regularization(一致性正则):相邻观测下预测的重叠未来轨迹应该一致。
goal-conditioned critic / verifier(目标条件评价器):检查当前动作是否仍朝语言目标推进。
low-level tracking controller(低层跟踪控制器):把学习策略输出限制在可跟踪、安全的轨迹范围内。
注意不要回答“加高通滤波”。动作抖动通常要低通滤波、rate limiter 或 smoothness penalty;高通滤波会保留快速变化,可能放大抖动。
16.5 怎么控制长 horizon 任务里的 semantic drift?
semantic drift(语义漂移) 指长任务中策略逐渐忘记原始语言目标,或者局部动作看起来合理但整体任务偏了。例如“tie a knot”过程中只关注拉线,却忘记针和组织的最终关系。
应对方法:
hierarchical planning(分层规划):高层维护任务目标和 subgoal,低层执行短技能。•
subgoal grounding(子目标落地):每个阶段都把语言目标映射到可观察状态。•
language re-conditioning(语言重复注入):每个 action chunk 或每个阶段重新注入原始指令和当前 progress。•
memory module(记忆模块):保存已完成步骤、工具状态、目标组织和失败历史。•
progress estimator(进度估计器):判断当前处于哪一个 surgical phase。•
verifier / critic(验证器/评价器):检查动作和当前状态是否仍符合语言意图。
面试中要强调:长 horizon 不能只靠一个 embedding 从头撑到尾,必须有阶段状态、进度估计和反馈校正。
16.6 泛化靠数据多样性还是结构归纳偏置?
高分回答是二者都要。数据多样性提供覆盖,结构归纳偏置提供正确的泛化方向。手术 VLA 中可以主动列出 inductive bias:
- • 多视角几何一致性。
- • 工具-组织交互先验。
- • 时间连续性和动作平滑先验。
- • 机器人运动学约束和 RCM 约束。
- • 语言 grounding 先验。
- • 子任务层级结构。
- • 接触力/安全边界约束。
- • spatial locality:工具尖端、组织接触点比背景更重要。
对 unseen surgical task 的泛化,不能只说“数据更多”。更可信的说法是:用语言条件和 skill composition 做任务组合,用预训练视觉表征和多视角几何处理场景变化,用 action adapter/kinematic prior 适配机器人,用少量示教或回放数据做目标任务 SFT。
16.7 如果迁移到达芬奇机器人上,架构要怎么改?
迁移到 da Vinci 这类手术机器人,核心不是把模型直接搬过去,而是重做 robot interface 和 safety envelope。
需要改的部分:
动作空间:从通用 EEF delta 或 joint command 改成 da Vinci 对应的工具尖端位姿、腕部姿态、夹爪开合和双臂协同命令。•
运动学约束:必须显式考虑 RCM(Remote Center of Motion,远心运动约束),避免在 trocar 入口处产生危险侧向运动。•
视觉输入:适配双目内窥镜、多视角标定、器械反光、烟雾、血液和组织形变。•
坐标系:做手眼标定、相机坐标到工具坐标、病灶/组织坐标到机器人控制坐标的转换。•
安全层:加入工作空间限制、力/速度限制、碰撞/接触监控、人工接管和保守 fallback。•
延迟优化:扩散采样、视觉编码和控制接口都要满足 surgical control 的实时性。
最大阻力通常不是模型结构,而是真实数据采集、临床安全验证、控制接口限制、法规和责任边界,以及 sim-to-real gap。面试时可以明确说:模型可以迁移,安全闭环和数据闭环才是最大工程成本。
86