具身智能TL常用算法面经：经典 VLA 模型与动作生成范式(二)

转载自公众号：敢敢AUTOHUB

1. 博客导读

这篇适合在你已经知道 VLA 基础以后再看。它的目标不是把模型名字背下来，而是让你能在面试里快速回答“这个模型输入什么、怎么生成动作、为什么这样设计、和别的模型区别在哪”。

如果你只想应付面试，优先掌握 RT-2、OpenVLA、ACT、Diffusion Policy、π0、GR00T、SmolVLA、RDT-1B 这八个词。
如果你想讲出项目取舍，重点掌握“动作表示、推理延迟、数据规模、跨 embodiment、部署方式”这五个维度。

本文目标：把 RT-2、OpenVLA、ACT、Diffusion Policy、RDT-1B、π0、GR00T、SmolVLA 放到同一个框架里比较。面试时不要只背“某模型有什么创新”，而要能说清楚：输入输出、动作表示、训练数据、推理方式、适用场景、缺点和改进方向。

2. 阶段二总图谱

模型/方法	核心动作表示	典型优势	典型短板	面试关键词
RT-2	离散 `action token（动作 token）`	复用 VLM，语言和动作统一成 token	离散误差、推理延迟、闭环控制压力	`web knowledge transfer（互联网知识迁移）`、`action tokenization（动作 token 化）`
OpenVLA	开源 `action-token VLA（动作 token 路线 VLA）`	开源、可复现、适合二次微调	默认动作空间和数据混合要适配项目	Prismatic、7B、Open X 数据
ACT	`CVAE（条件变分自编码器）` + `action chunk（动作块）`	小数据友好、工程闭环快、动作连贯	语言泛化弱，依赖任务内数据	`CVAE latent（条件 VAE 潜变量）`、`temporal ensemble（时间集成）`
Diffusion Policy	条件扩散生成连续轨迹	多峰动作、平滑轨迹、接触任务友好	多步采样慢，部署需加速	`denoising（去噪）`、`trajectory distribution（轨迹分布）`
RDT-1B	`Diffusion Transformer（扩散 Transformer）` + action chunk	大模型策略、输入模态丰富	算力和数据要求更高	language + RGB + state
π0	VLA + `flow matching action model（流匹配动作模型）`	连续动作、跨 embodiment、推理更快	训练和数据工程复杂	`flow matching（流匹配）`、`action expert（动作专家模块）`
GR00T	快慢系统，VLM + DiT	人形机器人、合成数据、系统化生态	对硬件和数据链路要求高	System 1/2、humanoid foundation model
SmolVLA	轻量 VLM + `flow action expert（流式动作专家）`	小模型、开源、异步推理、低成本硬件	能力上限受模型和数据规模限制	450M、LeRobot、`async inference（异步推理）`

3. Q1：RT-2 为什么能把动作也用“文本 token”表示？工程优势和问题是什么？

3.1 面试官问法

• RT-2 为什么可以直接用 VLM 生成机器人动作？

• action tokenization 的好处是什么？

• 离散动作 token 相比连续动作有什么问题？

3.2 考察点

面试官想看你是否理解 RT-2 的关键不是“用了大模型”，而是把机器人动作序列纳入语言模型的 token 生成范式。

3.3 30 秒回答

RT-2 把连续机器人动作离散化，再映射成类似文本 token（离散序列单元） 的形式，让 VLM（Vision-Language Model，视觉语言模型） 可以在同一个序列建模框架里同时学习语言、视觉和动作。优势是能复用互联网图文预训练带来的语义知识，工程上也能沿用 autoregressive generation（自回归生成） 框架；问题是动作精度受离散 bin 限制，多 token 生成有延迟，而且机器人闭环控制需要额外安全层。

3.4 2-3 分钟展开回答

RT-2 的核心思想是把机器人动作当成一种“新语言”。原始动作可能是末端位姿增量、旋转、夹爪开合等连续值，模型先把每个维度离散化到有限 bin（离散区间），再编码成 token。这样训练时可以把 web-scale（互联网规模） VLM 数据和机器人轨迹数据混合，让模型既学视觉语言语义，也学在给定图像和指令下生成动作 token。

工程优势有三点。

第一，统一接口。语言 token 和动作 token 都能放进 Transformer（基于注意力机制的序列建模架构） 自回归框架，不需要完全重写模型范式。

第二，语义迁移。VLM 在互联网图文中学到的物体、关系、常识可以迁移到机器人任务，比如识别“可乐罐”“抽屉”“垃圾”这些类别。

第三，任务泛化。语言指令可以组合新目标和新动词，模型有机会把语义泛化到动作。

但问题也很明确。机器人动作是连续控制，离散化会带来量化误差；自回归生成多个动作 token 会增加延迟；动作 token 不天然保证平滑、限速和碰撞安全。因此真实部署时要加动作后处理、低层控制器、安全过滤和频率管理。

3.5 常见追问

• 为什么不是直接输出浮点数？

• action token 的 bin 数怎么选？

• RT-2 类方案是否适合高精度装配？

3.6 高分追问回答

直接输出浮点数更贴近控制，但很难直接复用语言模型的 token 生成目标。RT-2 选择 tokenization 是为了把动作纳入 VLM 的生成空间。bin 数是精度和学习难度的折中：bin 太少，动作粗糙；bin 太多，类别稀疏、训练更难、生成更慢。

高精度装配不适合完全依赖离散 action token。更合理的是 VLM 负责语义和阶段选择，低层用连续控制、力控、视觉伺服或专门策略完成精细操作。

4. Q2：OpenVLA 为什么重要？和 RT-2 最大区别是什么？

4.1 面试官问法

• OpenVLA 的贡献是什么？

• OpenVLA 为什么能成为很多 VLA 项目的 baseline？

• 参数少是否一定说明模型更强？

4.2 考察点

这题考论文理解和实验判断。不要把“开源”当成唯一答案，要讲训练配方、数据混合、动作输出和可复现价值。

4.3 30 秒回答

• *OpenVLA 的重要性在于它提供了一个开源、可复现的通用 VLA baseline。**它基于开源 VLM 架构和大规模机器人数据训练，让研究者可以微调、部署和对比。和 RT-2 相比，OpenVLA 的重点不是提出 action token 概念，而是把 VLA 做成开放生态下可用的模型和训练流程。

4.4 2-3 分钟展开回答

OpenVLA 常被问，是因为它连接了两个需求：一是学术上需要可复现 baseline，二是工程上需要能拿来 fine-tune（微调） 的开源模型。RT-2 很有代表性，但不少实现细节和训练数据不完全开放；OpenVLA 则让大家可以在自己的机器人数据上做二次训练。

OpenVLA 的典型输入是图像和语言，输出是离散化的机器人动作。它仍然保留 action token 路线，但更强调开放训练、数据混合和模型适配。面试里可以这样比较：

• RT-2 更像证明“VLM 的 web knowledge 可以迁移到机器人控制”。
• OpenVLA 更像提供“开源 VLA 基座和微调起点”。
• 两者都受

action token 离散化和自回归延迟影响

。• 如果项目强调连续控制和低延迟，可能要接 diffusion/flow action head 或改成 chunked continuous action。

参数少但成功率高，不一定说明架构绝对更强。 机器人 benchmark 受数据分布、动作空间、评测任务、控制频率、相机设置影响很大。回答时要避免简单说“参数少 7 倍所以更优”，而要说它在特定评测协议下实现了更好的数据/模型匹配。

4.5 常见追问

• 如果用 OpenVLA 迁移到自己的机械臂，第一步改什么？

• OpenVLA 的动作空间不匹配怎么办？

• OpenVLA 适合做高频控制吗？

4.6 高分追问回答

第一步不是直接训练，而是对齐 data schema（数据格式规范）：相机视角、图像尺寸、语言标注、机器人状态、动作维度、控制频率和归一化方式。动作空间不匹配时，需要做 action adapter（动作适配器），例如把模型输出映射到本机 EEF delta（末端执行器增量） 或 joint command（关节命令）；必要时重新定义 tokenization 或改连续 action head。

OpenVLA 默认不适合直接做高频低层控制。更稳的做法是让它输出低频动作或短轨迹，再由低层控制器插补执行；或者把 OpenVLA 作为高层语义基座，下面接 ACT/Diffusion/Flow 策略。

5. Q3：ACT 的训练和推理流程是什么？

5.1 面试官问法

• ACT 为什么要用 CVAE？

• action chunking 解决了什么问题？

• ACT 推理时 temporal ensemble 是怎么做的？

5.2 考察点

ACT 是小数据机器人项目里非常高频的 baseline。面试官会看你是否真懂训练/推理，而不是只知道名字。

5.3 30 秒回答

CVAE（Conditional VAE，条件变分自编码器）学一个 latent style（潜在风格），让模型能处理同一任务下多种专家动作模式；推理时从 prior（先验分布） 采样或取均值，生成未来步动作。为了减少 chunk 边界抖动，通常用 temporal ensemble（时间集成）融合多个时间步预测到的重叠动作。

5.4 2-3 分钟展开回答

ACT 的输入通常是多视角图像、机器人 proprioception（本体感知） 和当前时间信息，输出是未来步动作。它和普通 BC 最大区别是：不是预测下一步，而是预测一段动作序列。这样可以降低有效 horizon，让模型学到局部行为片段，比如接近、闭合夹爪、抬起、移动。

• *CVAE 的作用是建模动作多样性。**训练时 encoder（编码器） 看专家动作 chunk，把它压成 latent（潜变量）；decoder（解码器） 根据视觉状态、机器人状态和重建动作 chunk。这样同一个观测下，如果专家有多种合理轨迹，模型不必用 MSE（Mean Squared Error，均方误差） 学成平均动作。

推理时没有专家动作，所以从先验 采样或取均值，再由 decoder 输出动作 chunk。Temporal ensemble（时间集成） 的直觉是：每个时刻都会收到过去多次预测中对当前动作的估计，把它们加权平均，可以减少预测边界不连续和抖动。

ACT 的优点是工程简单、小数据可用、推理比多步 diffusion 快。缺点是语言泛化和跨任务泛化依赖数据；如果任务差异很大，需要引入语言条件或更强视觉语义 backbone（主干网络）。

5.5 常见追问

• ACT 和普通行为克隆区别是什么？

• CVAE 会不会 posterior collapse？

• chunk size 怎么选？

5.6 高分追问回答

普通 BC（Behavior Cloning，行为克隆） 学，ACT 学，它更像短 horizon trajectory policy（短时域轨迹策略）。CVAE 确实可能 posterior collapse（后验坍塌），所以要关注 KL 权重、latent 维度、重建质量和采样多样性。chunk size（动作块长度） 要根据控制频率和任务反应性选：太短退化成单步 BC，太长容易对新观测反应慢。

6. Q4：Diffusion Policy 和传统 BC 相比优势在哪里？

6.1 面试官问法

• Diffusion Policy 是怎么建模 action space 的？

• 它建模 joint distribution 还是 marginal？

• 为什么 diffusion 适合机器人连续动作？

6.2 考察点

这题是阶段四生成模型基础的预告。阶段二重点讲模型直觉和机器人意义。

6.3 30 秒回答

Diffusion Policy（扩散策略）把未来一段动作轨迹看作条件生成对象，在视觉和状态条件下从噪声逐步去噪得到 action trajectory（动作轨迹）。相比 BC 的单点回归，它能建模多峰动作分布和动作间相关性，通常是对整个 action chunk 的 joint distribution（联合分布） 建模，而不是每个时间步独立预测。

6.4 2-3 分钟展开回答

传统 BC 常用 MSE 回归动作。如果同一观测下有多种可行操作，比如从左边绕或从右边绕，MSE 会学到平均轨迹，而平均轨迹可能撞到物体。Diffusion Policy 用生成式建模，可以保留多峰分布。

它通常不是独立预测每一维动作，而是生成未来一段连续动作序列。模型在每个去噪步输入 noisy action chunk（加噪动作块）、视觉特征、机器人状态和时间步 embedding（向量表示），输出噪声或 denoised action（去噪后的动作）。这样动作维度之间、时间步之间的相关性都能被建模。

优势有三点：

• 连续性：动作轨迹天然连续，适合控制。

• 多峰性：能表达多个合理策略，而不是平均动作。

• 闭环性：每次只执行前几步，再根据新观测重采样。

缺点是采样步数多，推理延迟比 ACT 或直接回归高。工程上可以用 DDIM、少步采样、蒸馏、consistency model 或 flow matching 加速。

6.5 常见追问

• diffusion policy 会不会动作抖动？

• 为什么不是每个 action dimension 独立扩散？

• 多步采样慢怎么解决？

6.6 高分追问回答

如果训练数据抖、条件信息不稳定或采样步数太少，diffusion policy 仍然会抖。解决方式包括动作 chunk、temporal smoothness（时间平滑约束）、低层限速、重叠 chunk 融合和更稳定的视觉状态对齐。每个维度独立扩散会破坏动作相关性，比如末端位移、旋转和夹爪开合必须配合，所以通常建模整个轨迹分布。

7. Q5：RDT-1B 和 Diffusion Policy 怎么选？

7.1 面试官问法

• RDT-1B 和 Diffusion Policy 的定位差异是什么？

• 什么场景下小模型 DP 更好？

• 什么场景下应该上大模型策略？

7.2 考察点

这是选型题。面试官看你是否会根据任务、数据、算力做判断，而不是盲目追大模型。

7.3 30 秒回答

Diffusion Policy 更像任务专家，适合数据量中等、任务边界明确、需要平滑连续控制的场景；RDT-1B（Robotics Diffusion Transformer，机器人扩散 Transformer）更像通用机器人策略基座，适合多任务、多模态、多机器人数据和更强泛化需求。数据少、任务单一、部署算力有限时我会先用 DP/ACT；跨任务和语言泛化是主目标时再考虑 RDT/VLA。

7.4 2-3 分钟展开回答

选型可以看四个维度，核心是不要为了追大模型牺牲可验证性和部署闭环。

第一是任务范围。单任务或少数任务，比如固定桌面 pick-and-place，Diffusion Policy 足够强，训练和调试成本更低。多任务、多物体、多语言、多场景时，大模型策略更有优势。

第二是数据规模。DP 可以在相对有限的专家数据上训练出不错结果；RDT 这类大模型更依赖大规模、多样化数据，否则容易过拟合或发挥不出泛化能力。

第三是部署算力。DP 可以做小网络和少步采样，ACT 更快；RDT-1B 对 GPU、显存和推理优化要求更高。

第四是研究目标。如果目标是验证新的 action generation、数据策略或控制闭环，小模型更容易做干净实验；如果目标是做通用策略和跨 embodiment 泛化，大模型更有意义。

7.5 常见追问

• 如果只能采 100 条 demo，你会选哪个？

• 如果要支持 20 个任务呢？

• 大模型策略失败时怎么 debug？

7.6 高分追问回答

100 条 demo（示教轨迹） 我会先选 ACT 或 Diffusion Policy，配合预训练视觉 encoder 和数据增强。20 个任务且语言变化明显时，可以考虑 VLA/RDT，但要保证任务标注、动作 schema 和评测协议统一。大模型失败时要拆开看：视觉是否看对、语言是否理解、状态是否对齐、动作头是否平滑、数据是否覆盖当前场景。

8. Q6：π0、π0.5、GR00T、SmolVLA 的 flow/diffusion action expert 怎么理解？

8.1 面试官问法

• π0 和传统 VLA 的差异是什么？

• GR00T 的快慢系统具体怎么分工？

• SmolVLA 为什么强调异步推理？

8.2 考察点

这是前沿模型理解题。核心不是记模型参数，而是理解“VLM 负责语义，连续生成模型负责动作”的趋势。

8.3 30 秒回答

这些模型共同趋势是把高层语义理解和低层连续动作生成分开：VLM/LLM 处理图像语言上下文，action expert 用 flow matching 或 diffusion transformer 生成连续 action chunk。这样比纯 action token 更适合机器人控制，也比纯小策略更有语义泛化潜力。GR00T 明确做快慢系统，SmolVLA 则把这种思路做轻量化，并通过异步推理减少执行等待。

8.4 2-3 分钟展开回答

π0 的代表性意义是把 VLA 和 flow matching（流匹配） 结合。它不是把动作完全当语言 token，而是让模型在语言和视觉条件下生成连续动作轨迹。Flow matching 学的是从噪声分布到真实动作分布的 velocity field（速度场），推理时沿着向量场把噪声搬运到动作，相比传统 diffusion 有潜在的少步推理优势。

GR00T 的表述更偏系统架构。System 2（慢系统） 类似高层 VLM，负责理解环境和指令、生成计划；System 1（快系统） 负责把计划转成连续机器人动作。这种架构适合人形机器人，因为人形任务既需要语义推理，也需要快速、稳定、全身协调的动作。

SmolVLA 的价值在轻量化和工程可用。它不是一味堆参数，而是强调 450M 级别模型、开源数据、flow matching action expert、视觉 token 减少和异步推理。异步推理的关键是机器人执行当前 action chunk 时，并行请求下一段 chunk，避免“执行完等模型”的空档。

8.5 常见追问

• flow matching 和 diffusion action head 本质区别是什么？

• 异步推理会不会用过期观测？

• 快慢系统是不是一定优于端到端？

8.6 高分追问回答

Flow matching 和 diffusion 都是生成动作分布的方法，但训练目标不同。Diffusion 通常学逐步去噪；flow matching 学连续时间向量场。工程上更关心推理步数、稳定性和是否容易蒸馏。异步推理确实有 stale observation 风险，所以要控制 chunk 长度、队列阈值、融合规则和安全中断。快慢系统不是绝对优于端到端，但在真实部署中更容易调试、插入安全约束和优化延迟。

9. Q7：离散动作 token、ACT、Diffusion、Flow Matching 到底怎么选？

9.1 面试官问法

• 你项目里为什么不用 RT-2 那种 action token？

• ACT 和 Diffusion Policy 谁更适合你的任务？

• Flow matching 是不是一定比 diffusion 好？

9.2 考察点

这是综合 tradeoff 题。高分回答要把“任务类型、数据规模、动作精度、推理延迟、泛化需求”放到一起。

9.3 30 秒回答

如果任务语言语义复杂、动作精度要求中等，可以考虑 action token VLA；如果数据少、任务明确、想快速落地，ACT 是强 baseline；如果动作多峰、接触复杂、需要平滑轨迹，Diffusion Policy 更合适；如果要连续动作同时追求少步推理和大模型融合，可以考虑 flow matching action head。但最终要看数据和部署频率，不是范式越新越好。

9.4 2-3 分钟展开回答

我会先问五个问题。

第一，任务是否强依赖语言泛化？如果只是固定任务，没必要上大 VLA；如果语言组合多，VLA 更有价值。

第二，动作是否需要高精度连续控制？高精度装配、接触、插拔等任务不适合粗离散 token，连续 action head 更合理。

第三，数据量有多少？几十到几百条 demo，ACT/DP 更现实；大规模多任务数据才支撑通用 VLA。

第四，推理预算是多少？自回归 token 和多步 diffusion 都可能慢，需要 action chunk、缓存、少步采样或异步推理。

第五，失败成本多高？如果失败成本高，必须保留安全层、低层控制和 fallback（失败兜底策略），不应该让端到端模型直接裸控。

面试里可以给一个明确结论：我会把 ACT 作为最小可行 baseline，把 Diffusion/Flow 作为动作质量升级方向，把 OpenVLA/π0/SmolVLA 作为语言泛化和多任务扩展方向。

10. Q9：UniVLA、late action model、VQ-VAE 这类思路怎么理解？

10.1 面试官问法

• UniVLA 的 late action model 是什么？

• latent action 和直接 action 输出有什么区别？

• 为什么要在中间加 VQ-VAE 这类模块？

10.2 考察点

这类问题通常是在看你是否理解“先压缩再解码”的分层建模思路。即使你没完整复现过，也要能讲清楚它解决的是动作空间太复杂、直接回归太难、长时序太不稳定这几个问题。

10.3 30 秒回答

UniVLA 这类思路一般是先把复杂动作压缩成 latent action，再通过解码器生成最终动作。late action 的意思是 “先做语义或潜在规划，后做具体动作展开”。这样可以 减少动作空间维度、提高序列建模稳定性，也方便把高层语义和低层控制分开。

10.4 2-3 分钟展开回答

如果面试官提 UniVLA，你可以把它理解成 “分层式 VLA”。它的核心不是某个具体名字，而是这种建模逻辑：

1. 先用视觉语言模块理解当前场景和任务。

2. 再把动作映射到一个更低维、更结构化的 latent space（潜空间）。

3. 最后由 action decoder（动作解码器）或 VQ-VAE 解码成可执行动作。

这样做的原因有两个。

第一，动作直接回归太难。特别是长时序任务、连续控制、多人类风格示教时，动作分布会非常复杂。latent action 可以把**“连续多解”压缩成更紧凑的表示**。

第二，分层更适合工程。高层可以先决定“做什么”，低层再决定“怎么做”。这和大脑/小脑、快慢系统的思路一致。

VQ-VAE（Vector Quantized VAE，向量量化变分自编码器） 在这里通常承担 “离散化 latent” 的角色。VQ（Vector Quantization，向量量化） 意味着把连续 latent 映射到一组 codebook（码本） 向量里，形成更稳定的符号空间。它的优点是更容易序列化，缺点是会引入量化误差。

10.5 常见追问

• latent action 为什么有时比直接回归更稳？

• VQ-VAE 会不会损失动作细节？

• 这种结构适合什么任务？

10.6 高分追问回答

latent action 更稳，是因为它把高维连续动作先投影到一个结构化空间，减少了直接学习复杂动作分布的难度。VQ-VAE 确实会损失一部分细节，所以它更适合中高层动作计划或短轨迹块，而不是特别精细的力控任务。它适合长时序、多任务、需要层次结构的 VLA 场景。

11. Q10：RTC / real-time chunking 是什么？为什么它和动作 chunk 一起被问？

11.1 面试官问法

• RTC 你看过吗？解决什么问题？

• 动作分块增大时，怎么平衡推理延迟和控制精度？

• 异步推理怎么避免模型等控制器？

11.2 考察点

这题本质是在看你是否理解“机器人不是一次性生成答案，而是边执行边推理”。RTC 的价值在于把大模型生成和机器人执行解耦，减少空等时间。

11.3 30 秒回答

RTC（Real-Time Chunking，实时动作分块）可以理解成边执行边生成动作块：模型不是每次只输出一个动作，而是输出一段短动作块，并在执行当前块时并行生成下一块。这样能降低等待推理的空档，兼顾连续性和实时性。chunk 越大，动作越平滑，但响应越慢；chunk 越小，响应越快，但推理开销和边界抖动会更明显。

11.4 2-3 分钟展开回答

RTC 这类问题通常和 action chunk 一起问，是因为它们解决的是同一个矛盾：机器人需要实时控制，但大模型推理不是瞬时完成的。

可以把控制过程理解为：

• 当前时刻，模型根据观测输出步动作。
• 机器人先执行前步，。
• 在执行期间，模型并行预测下一段动作块。
• 两段动作之间通过重叠、interpolation（插值）或 temporal ensemble 缝合。

这样做的好处是减少“机器人在等模型”的空档，也让动作更连续。风险是观测会过期，所以需要设置 chunk 长度上限、重规划触发条件和安全中断机制。

11.5 常见追问

• RTC 和低层控制器插补是什么关系？

• 异步推理会不会带来 stale observation？

• 什么时候不适合用 RTC？

11.6 高分追问回答

RTC 不能替代低层控制器。它只是让策略层推理更符合实时系统。低层控制器负责高频稳定跟踪，RTC 负责中频动作生成。stale observation（过期观测） 可以通过缩短 chunk、实时重规划、冲突检测和安全层来缓解。特别是接触任务、动态障碍任务和高频视觉伺服任务，不适合过长的 chunk。

传统的 Action Chunking（动作分块）范式（图 A 部分）通过让策略模型一次性预测未来的一段时间步序列（动作块），有效减少了逐帧推理的复合误差。然而，其本质上是一种开环执行模式：机器人完整执行完上一个动作块后，才开始根据最新的观测进行下一次推理。这种方式在块与块的切换处容易产生物理上的不连续跳跃，增加安全中断风险，且难以应对Stale Observation（过期观测）。

相比之下，模型提出的 Real-Time Chunking（RTC，实时动作分块）（图 B 部分）则是针对大范式模型（如 Diffusion/Flow-based）高推理延迟问题的一种闭环工程优化。RTC 的核心在于引入了异步执行和局部修复（Inpainting）机制：在生成新的动作块时，RTC 算法利用上一个动作块的末端（冻结前缀）作为强约束点，通过轨迹修复（Inpainting）技术生成与当前运动状态完美对齐的新轨迹。这种方式避免了传统的“时序集成”可能带来的“平均动作”偏差，在保证动作稳定连贯的同时，实现了基于实时反馈的闭环控制。

12. Q11：π0.5、π*0.6、π0.7 到底怎么区分？

12.1 面试官问法

• π0.5、π0.6、π0.7 是同一条路线吗？

• π*0.6 的星号是什么意思？

• π0.7 为什么强调 steerable 和 emergent capability？

12.2 考察点

这题考的不是背版本号，而是看你能否把 Physical Intelligence 这条线拆成三类能力：开放环境泛化、经验/RL 提升、可控的组合泛化。如果面试官说“π0.6”，最好先确认是基础 π0.6，还是公开博客里重点讨论的 π*0.6。

12.3 30 秒回答

π0.5 重点是 open-world generalization，通过多机器人、多模态、网页视觉语言数据和高层语义标注做 co-training，让模型能在新家庭、新物体、新布局中完成任务。π*0.6 重点是从经验中学习，用 RECAP 把示教、纠错和强化学习结合起来，提高真实任务的成功率和吞吐。π0.7 重点是 steerable generalist，用语言、元数据、控制模态和视觉子目标等 prompt 控制“怎么做”，并展示组合泛化。

12.4 2-3 分钟展开回答

π0.5 的核心问题是：机器人到了一个没见过的新家，能不能知道“厨房要收拾到哪里、衣服鞋子该放哪里、海绵适合擦污渍”。所以它不是只追求更精细的某个动作，而是通过 heterogeneous co-training 把机器人动作数据、高层语义任务、网页多模态数据和人类 verbal instruction 放在同一套 VLA 训练里，让模型既知道低层怎么动，也知道高层语义应该怎么分解。

π*0.6 的核心问题是：模仿学习做到 50% 成功率不难，但真实部署需要稳定、快速、长时间运行。公开资料里它用 RECAP（RL with Experience & Corrections via Advantage-conditioned Policies） 训练：先有示教，再让人类在模型犯错时接管纠正，最后让机器人从自己的 autonomous experience 里用 RL 提升。星号可以理解成“经过经验和 RL 强化后的 π0.6 specialist”。

π0.7 的核心问题是：一个通用模型能否不针对每个任务单独微调，也能组合已有技能完成新任务。它把 prompt 做得更丰富，不只告诉模型“做什么”，还可以通过 subtask instruction、visual subgoal、speed/quality metadata、control modality label 等信息告诉模型“怎么做”。面试里可以把它概括为：π0.5 扩环境，π*0.6 补可靠性，π0.7 强调可控组合泛化。

12.5 常见追问

• π0.7 是不是直接替代 π*0.6？

• visual subgoal 和语言子任务有什么区别？

• 为什么 π*0.6 要引入机器人自己的失败经验？

12.6 高分追问回答

π0.7 不是简单“版本号更大所以全面替代”。π*0.6 更像对具体高价值任务做 experience/RL 后的 specialist；π0.7 更像把多种数据、策略元信息和子目标统一进一个 generalist prompt 框架。visual subgoal 提供空间布局约束，语言子任务提供语义步骤约束。机器人自己的失败经验很关键，因为真实闭环控制会产生训练集中没有的状态，纠错和 RL 正是在补这个 distribution shift。

13. Q12：GR00T N1.7 面试应该怎么讲？

13.1 面试官问法

• GR00T N1.7 和早期 GR00T N1/N1.5/N1.6 有什么变化？

• 它的 System 1 / System 2 架构和普通 VLA 有什么区别？

• 为什么它强调 humanoid、relative EEF action 和 human video pretraining？

13.2 考察点

这题考的是你能否把 GR00T 当成人形机器人系统栈来讲，而不是只把它当论文模型名。公开资料里 GR00T N1.7 是 NVIDIA Isaac GR00T 的 early access 版本，代码仓库和模型权重已公开，定位是面向 generalized humanoid robot skills 的 open VLA。

13.3 30 秒回答

GR00T N1.7 是面向人形机器人技能的 VLA 模型，核心是双系统 Action Cascade：System 2 用 VLM 做图像语言理解、任务分解和高层 action token；System 1 用 Diffusion Transformer 结合机器人状态，把高层输出去噪成连续动作。和早期版本相比，N1.7 公开资料强调新的 VLM backbone、relative EEF action space、20K 小时 EgoScale human video pretraining，以及更好的语言跟随和泛化。

13.4 2-3 分钟展开回答

面试里不要只说“GR00T 是 NVIDIA 的机器人模型”。更好的说法是：它把通用视觉语言推理和人形机器人连续控制拆开。System 2 负责慢思考，例如理解多视角图像、语言指令和任务上下文，输出更抽象的动作意图；System 1 负责快执行，例如用 diffusion transformer 在实时状态条件下生成可执行的连续动作。

N1.7 值得单独记，是因为它把几个工程点放在一起：第一，VLM backbone 升级到 Cosmos-Reason2-2B / Qwen3-VL 相关架构；第二，用 relative end-effector action 表示动作增量，提高跨机器人和人类数据对齐；第三，加入大量人类第一视角视频预训练，希望把人类操作先验迁移到机器人控制；第四，仓库支持 LeRobot 数据格式、微调、推理和 TensorRT/ONNX 导出。

如果面试官追问“为什么要人类视频”，可以回答：纯遥操作机器人数据贵、慢、覆盖窄，人类第一视角视频更容易规模化，但它没有直接机器人动作标签，所以需要动作表示、embodiment 对齐和后训练把视觉操作先验转成机器人可执行动作。这里的难点不只是模型大，而是数据、动作空间、延迟和部署链路都要对齐。

13.5 常见追问

• GR00T 的双系统是不是等价于高层规划器加低层控制器？

•relative EEF action 为什么有利于跨 embodiment？

• 人类视频预训练会不会学到机器人做不到的动作？

13.6 高分追问回答

双系统和传统 planner/controller 类似，但不完全等价。GR00T 的高层不是显式符号规划器，而是 VLM 产生的高层动作表示；低层也不是经典 PID，而是 learned diffusion action head。relative EEF action 用当前位置的增量表示动作，比绝对坐标更容易跨机器人、跨场景归一化。人类视频确实可能包含机器人无法执行的动作，所以还需要机器人示教、embodiment tags、后训练和安全约束来过滤不可执行行为。

14. Q13：X-VLA 的 soft prompt 为什么适合跨机器人？

14.1 面试官问法

• X-VLA 的 X 主要指什么？

• soft-prompted Transformer 怎么处理不同机器人数据？

• 它和 OpenVLA、π0、GR00T 的区别在哪里？

14.2 考察点

这题看你是否理解 cross-embodiment 的核心矛盾：不同机器人相机、自由度、动作空间、任务数据和控制频率都不一样，直接混训容易互相干扰。X-VLA 的公开项目把重点放在用少量可学习 soft prompts 表示不同数据源/机器人差异。

14.3 30 秒回答

X-VLA 是一个 soft-prompted、flow-matching-based VLA。它不是给每个机器人单独训练一套大模型，而是给不同数据源或 embodiment 引入 learnable embeddings，让模型知道当前样本来自哪类机器人、哪种数据分布。这样可以在标准 Transformer encoder 上更稳定地利用异构数据，并在仿真和真实机器人上做跨 embodiment 适配。

14.4 2-3 分钟展开回答

X-VLA 的面试价值在于回答“异构机器人数据怎么混训”。最朴素的做法是把所有数据直接拼起来训练，但不同机器人之间动作维度、控制语义和视觉视角都不同，模型可能学到冲突分布。X-VLA 的做法是引入 soft prompt：给每类数据源或机器人一组可学习 embedding，作为条件信号注入 Transformer，让同一个主模型在共享能力的同时保留 embodiment-specific 差异。

它的另一个关键词是 simplicity。公开项目描述里强调标准 Transformer encoder、显式区分高维视觉输入和低维状态输入，并使用 flow matching 生成动作。你可以把它和 GR00T 对比：GR00T 更偏 NVIDIA 人形机器人系统栈和部署生态；X-VLA 更偏研究问题，即如何让一个 VLA 在多数据源、多机器人下稳定预训练和快速适配。

如果面试官问“soft prompt 会不会只是给模型加标签”，可以回答：它确实有点像可学习标签，但比手写 one-hot 更灵活，因为 prompt embedding 可以在训练中吸收数据源、机器人形态、控制接口和视觉分布的隐含差异。缺点是它不能自动解决所有动作空间不一致问题，仍需要统一数据 schema、动作归一化和评测协议。

14.5 常见追问

• soft prompt 和 embodiment tag 有什么区别？

• X-VLA 为什么仍然需要动作空间对齐？

• flow matching 在这里解决的是哪个问题？

14.6 高分追问回答

embodiment tag 更像显式类别标识，soft prompt 是可学习连续向量，能承载更多数据源差异。它能帮助模型区分“这条轨迹来自哪种机器人”，但不能替你定义动作含义，所以动作维度、单位、归一化和控制频率仍然要对齐。flow matching 解决的是连续动作分布生成问题，让模型从噪声或中间状态生成一段动作轨迹，适合机器人 action chunk。

15. Q14：这些前沿模型背后的基础问题怎么答？

15.1 面试官问法

• 为什么现在 VLA 都从 action token 转向 continuous action head？

• action chunk 越长是不是越好？

• cross-embodiment 泛化到底难在哪里？

• RTC、async inference、temporal ensemble 有什么关系？

15.2 考察点

这是综合基础题。面试官真正想听的是你能否从动作表示、时间延迟、数据分布、机器人形态、安全闭环五个角度解释模型设计，而不是把论文名串起来。

15.3 30 秒回答

前沿 VLA 的共同趋势是：VLM 负责语义和任务理解，连续 action head 负责可执行动作，action chunk 负责降低有效控制 horizon，RTC/async inference 负责把大模型延迟藏进执行过程，cross-embodiment 方法负责让不同机器人数据能被同一个模型利用。真正部署时，重点不是模型名字，而是动作空间是否对齐、推理是否实时、低层控制是否稳定、安全层是否能兜底。

15.4 2-3 分钟展开回答

第一，continuous action head 不是否定 action token，而是因为机器人控制天然连续。离散 token 方便复用语言模型训练，但高精度接触、插拔、布料和灵巧手任务需要平滑轨迹和动作相关性，所以 diffusion、flow matching、ACT 这类 chunked continuous policy 更常被问。

第二，chunk 长度是延迟和反应性的折中。长 chunk 能减少模型调用、动作更连贯，但观测更新慢，容易执行过期计划；短 chunk 反应快，但推理压力大，边界抖动明显。RTC 的价值是让模型在机器人执行旧 chunk 时生成新 chunk，并通过 overlap/inpainting 保持一致。

第三，cross-embodiment 难在 “同一个词不代表同一个动作”。不同机器人有不同自由度、夹爪、相机、控制接口和工作空间。可行方法包括 relative EEF action、embodiment tag、soft prompt、action adapter、统一数据 schema，以及在目标机器人上少量后训练。

第四，安全闭环不能省。VLA 输出的动作还要经过限速、碰撞检测、工作空间约束、力/扭矩保护、失败检测和人工接管。面试里说“端到端控制”时要补一句：端到端是策略学习目标，不代表部署时没有控制器和安全层。

15.5 常见追问

• 如果只能选一个 baseline，你会先选 ACT、DP 还是 VLA？

• 大模型机器人策略失败时怎么定位？

• 怎么判断一个新论文是真的提升还是只换了 benchmark？

15.6 高分追问回答

小数据、固定任务先选 ACT/DP；多语言、多任务、多物体再考虑 VLA；跨机器人和开放环境任务才需要更复杂的 generalist。失败定位要拆成 perception、language grounding、state/action normalization、action head、控制器和数据覆盖。判断论文提升时要看是否同一机器人、同一动作空间、同一控制频率、同一评测协议，以及有没有真实闭环实验，而不是只看 headline 成功率。

16. 高频追问补充：Diffusion VLA、动作漂移、长时序语义漂移和达芬奇迁移

这一组问题适合接在 Diffusion Policy、π0、GR00T、SmolVLA 后面。面试官通常会从“你用了 diffusion 做策略”继续追到 action space、多个 diffusion expert 怎么融合、怎么防止长时间漂移，以及迁移到真实手术机器人要改哪里。

16.1 Diffusion model 做动作策略，action space 怎么建模？

Diffusion Policy 通常不是生成单步动作，而是建模未来一段动作序列：

其中是视觉观测，是机器人状态，是语言指令，是历史观测或动作。动作可以定义在多种空间：

• joint space（关节空间）：关节位置、速度或增量，贴近硬件，但跨机器人迁移差。

task space / EEF space（任务空间/末端空间）：末端位姿增量、旋转、夹爪命令，更直观，但需要 IK 或低层控制器转换。

hybrid action（混合动作）：末端位姿 + 夹爪 + 接触力/速度模式。

latent action（潜在动作）：先预测低维技能或动作 latent，再由 decoder 或 controller 解码。

手术机器人里更常见的高层动作是 EEF delta pose、工具尖端 pose、gripper/jaw command 或双臂同步动作；底层再通过 IK、RCM constraint 和安全控制转换成可执行 joint command。

16.2 连续动作空间：建模 joint distribution 还是 marginal？

高分回答要明确：通常建模 action chunk 的 joint distribution，而不是每个维度独立建模 marginal distribution。

原因是机器人动作强相关。工具尖端平移、旋转、夹爪开合、左右臂配合和时间步之间不能独立。例如缝合时，needle driver 的旋转、进针轨迹和夹爪闭合必须协调；如果每个维度独立生成，很容易出现姿态对了但夹爪时机错、或双臂动作相互冲突。

面试可以这样收尾：marginal 预测实现简单，但会丢掉 coordination；diffusion/flow 生成整个 action chunk，本质上就是为了保留动作维度和时间维度之间的相关性。

16.3 多个 diffusion 模型组合：gating 还是 uncertainty-aware ensemble？

如果多个 diffusion expert 负责不同任务、不同视角或不同手术阶段，有两类融合方式。

gating mechanism（门控机制） 是先由 router 根据状态、语言、阶段和不确定性选择一个 expert，或者给每个 expert 分配权重。适合任务边界比较清楚的场景，例如 grasp、pull、cut、suture 各有不同 expert。

uncertainty-aware ensemble（不确定性感知集成） 是多个模型都输出候选 action chunk，再根据 uncertainty 加权融合或重排序。常见不确定性估计包括：

epistemic uncertainty（认知不确定性）：模型没见过、不知道，通常用 ensemble variance、MC dropout、不同 checkpoint 输出差异估计。

aleatoric uncertainty（偶然不确定性）：数据本身噪声或场景不可观测，例如烟雾、遮挡、反光、组织变形，可用预测分布方差、heteroscedastic head 或 diffusion sample diversity 估计。

对比时要说清楚：epistemic 通常可以通过补数据降低；aleatoric 不一定能消除，只能通过多模态观测、触觉/力觉、保守控制和人工接管降低风险。

16.4 怎么防止 action drift？

action drift（动作漂移） 指策略在长时间执行中逐渐偏离目标，可能来自视觉误差、语言目标遗忘、open-loop chunk 过长、采样随机性或低层跟踪误差。

常见方法：

receding horizon control（滚动时域控制）：每次预测 K 步，只执行前 M 步，再用新观测重规划。

temporal smoothness loss（时间平滑损失）：惩罚相邻动作差异，例如。

consistency regularization（一致性正则）：相邻观测下预测的重叠未来轨迹应该一致。

goal-conditioned critic / verifier（目标条件评价器）：检查当前动作是否仍朝语言目标推进。

low-level tracking controller（低层跟踪控制器）：把学习策略输出限制在可跟踪、安全的轨迹范围内。

注意不要回答“加高通滤波”。动作抖动通常要低通滤波、rate limiter 或 smoothness penalty；高通滤波会保留快速变化，可能放大抖动。

16.5 怎么控制长 horizon 任务里的 semantic drift？

semantic drift（语义漂移） 指长任务中策略逐渐忘记原始语言目标，或者局部动作看起来合理但整体任务偏了。例如“tie a knot”过程中只关注拉线，却忘记针和组织的最终关系。

应对方法：

hierarchical planning（分层规划）：高层维护任务目标和 subgoal，低层执行短技能。•

subgoal grounding（子目标落地）：每个阶段都把语言目标映射到可观察状态。•

language re-conditioning（语言重复注入）：每个 action chunk 或每个阶段重新注入原始指令和当前 progress。•

memory module（记忆模块）：保存已完成步骤、工具状态、目标组织和失败历史。•

progress estimator（进度估计器）：判断当前处于哪一个 surgical phase。•

verifier / critic（验证器/评价器）：检查动作和当前状态是否仍符合语言意图。

面试中要强调：长 horizon 不能只靠一个 embedding 从头撑到尾，必须有阶段状态、进度估计和反馈校正。

16.6 泛化靠数据多样性还是结构归纳偏置？

高分回答是二者都要。数据多样性提供覆盖，结构归纳偏置提供正确的泛化方向。手术 VLA 中可以主动列出 inductive bias：

• 多视角几何一致性。

• 工具-组织交互先验。

• 时间连续性和动作平滑先验。

• 机器人运动学约束和 RCM 约束。

• 语言 grounding 先验。

• 子任务层级结构。

• 接触力/安全边界约束。

• spatial locality：工具尖端、组织接触点比背景更重要。

对 unseen surgical task 的泛化，不能只说“数据更多”。更可信的说法是：用语言条件和 skill composition 做任务组合，用预训练视觉表征和多视角几何处理场景变化，用 action adapter/kinematic prior 适配机器人，用少量示教或回放数据做目标任务 SFT。

16.7 如果迁移到达芬奇机器人上，架构要怎么改？

迁移到 da Vinci 这类手术机器人，核心不是把模型直接搬过去，而是重做 robot interface 和 safety envelope。

需要改的部分：

动作空间：从通用 EEF delta 或 joint command 改成 da Vinci 对应的工具尖端位姿、腕部姿态、夹爪开合和双臂协同命令。•

运动学约束：必须显式考虑 RCM（Remote Center of Motion，远心运动约束），避免在 trocar 入口处产生危险侧向运动。•

视觉输入：适配双目内窥镜、多视角标定、器械反光、烟雾、血液和组织形变。•

坐标系：做手眼标定、相机坐标到工具坐标、病灶/组织坐标到机器人控制坐标的转换。•

安全层：加入工作空间限制、力/速度限制、碰撞/接触监控、人工接管和保守 fallback。•

延迟优化：扩散采样、视觉编码和控制接口都要满足 surgical control 的实时性。

最大阻力通常不是模型结构，而是真实数据采集、临床安全验证、控制接口限制、法规和责任边界，以及 sim-to-real gap。面试时可以明确说：模型可以迁移，安全闭环和数据闭环才是最大工程成本。