2026 具身智能算法面试高频题：动作生成 / RL / 部署全解析

转载自公众号：敢敢AUTOHUB

原标题：具身智能TL常用算法面经：生成式策略基础与 RL (四)

1. 博客导读

这篇是具身智能算法基础面试的主战场。面试官如果从 VLA 模型继续往下追，通常会追到 动作如何生成、为什么用 action chunk、CVAE/Diffusion/Flow Matching 怎么选、RL 怎么后训练、PPO/SAC/TD3/离线 RL 有什么区别，以及部署时如何保证动作稳定。

建议按下面顺序看：

1. 先理解 action chunk + CVAE/ACT：为什么机器人策略不能只做单步 MSE 回归。

2. 再理解 Diffusion Policy、Flow Matching、Consistency Model：这是 2024-2026 VLA 动作头和生成式策略的核心。

3. 再看 VLA action representation：RT-2/OpenVLA 的离散动作 token，Octo/Diffusion Policy 的连续轨迹，π0 的 flow matching action expert。

4. 然后进入 RL 高频题：DDQN vs PPO、PPO clip/GAE、SAC/TD3、离线 RL、GRPO/RLHF、reward design。

5. 最后补 部署和训练工程：动作抖动、不确定性、risk-aware training、LoRA、attention 复杂度、batch size 和学习率。

这篇目的不是罗列论文名，而是把面试中容易被深挖的算法问题串成一条线：先用模仿学习学会动作分布，再用生成式模型表达多峰轨迹，必要时用 RL/偏好优化做后训练，最后用控制和安全层保证真机可部署。

2. 阶段四总图谱：从动作生成到后训练

模块	代表方法	在机器人里的作用	面试重点	风险/短板
基础模仿学习	BC、ACT、CVAE	从示教数据学习动作或动作块	compounding error、多峰动作、latent style	容易学平均动作，OOD 状态恢复弱
扩散策略	Diffusion Policy、DDIM、DPM-Solver	条件生成连续 action chunk	joint distribution、去噪目标、receding horizon	多步采样慢，部署需优化
流匹配策略	Flow Matching、π0 action expert	学噪声到动作的连续向量场	velocity field、ODE 积分、连续动作头	训练/实现复杂，稳定性依赖设计
少步生成	Consistency Model、蒸馏	把多步生成压到少步/一步	延迟、质量-速度权衡	蒸馏质量和鲁棒性要验证
在线 RL	PPO、SAC、TD3	用环境反馈优化成功率和恢复能力	on-policy/off-policy、entropy、critic 稳定性	真机采样贵，探索危险
离线/批量 RL	CQL、IQL、AWAC/AWR	从历史轨迹中超过行为策略	distribution shift、保守 Q、advantage weighting	数据覆盖不足时容易外推错误
大模型后训练	DPO、PPO、GRPO、RLHF/RLAIF	用偏好、规则 reward 或成功预测器对齐 VLA	value model、relative advantage、reranking	不能直接照搬 LLM 到低层控制
部署稳定性	smoothness loss、MPC/CBF、uncertainty	约束动作抖动和风险	jitter、risk-aware、Lyapunov 边界	端到端神经策略难形式化证明

3. Q1：ACT/action chunking 为什么重要？CVAE latent style 在 ACT 里有什么作用？

3.1 面试官问法

• ACT 为什么不用普通 Transformer 回归？• CVAE 的 latent 表示什么？• VAE loss 怎么写？

3.2 考察点

这是基础生成模型题。面试官会看你是否理解“多解动作”和“平均动作问题”。

3.3 30 秒回答

CVAE（Conditional VAE，条件变分自编码器）在 ACT 里用于建模同一观测下多种合理动作风格。训练时 encoder（编码器） 看专家 action chunk（动作块），把轨迹压成 latent（潜变量）；decoder（解码器） 根据图像、状态和重建动作 chunk。这样模型不会只用 MSE（Mean Squared Error，均方误差） 学成平均动作，而能表达不同示教风格或路径选择。

3.4 2-3 分钟展开回答

VAE（Variational Autoencoder，变分自编码器） 的基本思想是用 latent variable（潜变量） 表示数据背后的隐含因素。普通 autoencoder（自编码器） 只学编码和重建，VAE 额外约束接近一个 prior distribution（先验分布），比如标准高斯，这样推理时可以从先验采样。

CVAE 是 conditional VAE（条件 VAE）。机器人里条件可以是图像、语言、机器人状态；目标是未来动作 chunk。训练目标通常包括两部分：

在 ACT 中，可以理解成示教风格或局部轨迹模式。例如同一个抓取任务，可以从左边接近，也可以从右边接近；可以先抬高手臂再伸过去，也可以直线接近。没有 latent 时，MSE 可能把多个模式平均成一个不可执行轨迹。

推理时没有专家动作，所以不能用 posterior encoder（后验编码器），只能从 prior（先验分布） 采样或用的均值。实际项目里为了稳定，很多时候会取均值而不是随机采样。

3.5 常见追问

• posterior collapse 是什么？• KL 权重怎么调？• CVAE 和 diffusion 都能建模多峰，区别是什么？

3.6 高分追问回答

Posterior collapse（后验坍塌）指 decoder 太强，模型忽略，导致 latent 不携带动作风格信息。可以通过调小 KL 权重、KL annealing（KL 权重退火，逐步增大 KL 项权重）、限制 decoder、增大 latent 作用路径来缓解。CVAE 推理快、工程简单，但分布表达不如 diffusion/flow 强；diffusion 更适合复杂连续轨迹，但推理更慢。

4. Q2：Diffusion Policy 是如何建模 action space 的？joint distribution 还是 marginal？

4.1 面试官问法

• Diffusion Policy 建模的是单步动作还是轨迹？• 它是 joint distribution 还是每一维独立？• 为什么 diffusion 比 BC 更适合多峰动作？

4.2 考察点

这是扩散策略核心题。回答要明确：通常建模未来 action chunk 的联合分布。

4.3 30 秒回答

Diffusion Policy（扩散策略）通常建模未来一段 action chunk 的 conditional joint distribution（条件联合分布），不是每个时间步或每个维度独立建模。训练时给真实动作轨迹加噪，模型学习在观测条件下 denoise（去噪）；推理时从高斯噪声开始，多步去噪得到连续动作轨迹。

4.4 2-3 分钟展开回答

机器人动作不是独立标量。末端位移、旋转、夹爪开合和时间步之间有强相关性。比如抓取时，手先接近，夹爪再闭合，然后抬起；如果每个动作维度独立预测，很容易破坏这种时序结构。

Diffusion Policy 把整个 action chunk 当成一个高维样本。训练时随机采一个噪声等级，把真实动作 chunk 加噪成 noisy action（带噪动作），再让模型预测噪声或干净动作。模型条件包括视觉特征、机器人状态、语言指令和 diffusion timestep（扩散时间步）。

它比 BC 更适合多峰动作，是因为BC 的 MSE 对多模态分布会学均值，而 diffusion 能从噪声采样出不同模式。比如绕障碍物时，左绕和右绕都是合理解，平均轨迹可能撞障碍；生成模型可以保留两个模式。

4.5 常见追问

• 推理时每次采样不同，机器人会不会不稳定？• 如何控制 diffusion policy 的动作平滑？• 采样步数太多怎么办？

4.6 高分追问回答

部署时通常不会无限随机采样，可以固定

seed（随机种子）、low-temperature sampling（低温采样，降低随机性）、选择高置信轨迹或用receding horizon（滚动时域，只执行前几步再重规划）。平滑性来自三个层面：训练数据本身平滑、生成整个 action chunk、loss 中加入速度/加速度penalty（惩罚项）或用 temporal ensemble。采样慢可以用 DDIM（确定性扩散隐式模型采样）、少步sampler（采样器）、distillation（蒸馏）、consistency model 或 flow matching。

5. Q3：Flow Matching 是什么？和 Diffusion/DDIM 的区别是什么？

5.1 面试官问法

• Flow matching 怎么解释？• π0 为什么用 flow matching？• Flow matching 和 diffusion 本质区别是什么？

5.2 考察点

这是 2025-2026 VLA 高频基础。面试官想看你是否能用直觉解释，而不是只背公式。

5.3 30 秒回答

Flow Matching（流匹配）学的是一个连续时间 vector field（向量场），把简单噪声分布中的样本沿着流搬运到真实动作分布。Diffusion 更常见的说法是逐步加噪和逐步去噪；flow matching 直接监督中间路径上的 velocity field（速度场）。对机器人动作来说，它适合生成连续 action chunk，并且有少步推理潜力。

5.4 2-3 分钟展开回答

可以用 “搬运” 来理解 flow matching。假设起点是高斯噪声，终点是真实动作轨迹。我们在中间时间构造一个插值点，模型学习此时应该沿哪个方向移动，也就是速度。推理时从噪声出发，沿模型预测的速度场积分，最后到达动作轨迹。

Diffusion 的训练常围绕噪声预测或 score matching（分数匹配），推理是反向去噪过程。Flow matching 则更直接地学习从源分布到目标分布的向量场。两者都可以看作生成模型，但训练目标和采样路径表述不同。

机器人里使用 flow matching 的原因：

连续轨迹，向量场生成很自然

有潜力用更少步数得到可用动作

。• 易于和 VLM 条件结合，让语义上下文调制动作生成。

5.5 常见追问

• Flow matching 是不是一定比 diffusion 快？• 一致性模型和 flow matching 有什么不同？• Flow matching 训练需要什么监督？

5.6 高分追问回答

不一定。Flow matching 有少步推理潜力，但实际速度取决于网络大小、积分步数、稳定性和部署优化。Consistency model（一致性模型） 更像把多步生成过程蒸馏成少步映射，目标是快速采样；flow matching 是直接学习连续向量场。训练监督来自真实动作样本和构造的噪声-数据路径，不需要 RL reward。

6. Q4：一致性模型/流匹配如何加速 VLA 推理？和 DDIM 蒸馏区别是什么？

6.1 面试官问法

• 多步 diffusion 太慢，你怎么加速？• Consistency model、DDIM、flow matching 的关系是什么？• 加速会不会牺牲动作质量？

6.2 考察点

这是生成模型和部署结合题。回答要落到机器人推理延迟。

6.3 30 秒回答

加速思路有三类：用 DDIM/少步 sampler 减少去噪步数；用一致性模型把多步生成蒸馏成一步或少步；用 flow matching 学向量场并用少步 ODE 积分生成动作。区别在于DDIM 是换采样路径，consistency 更偏蒸馏快速映射，flow matching 是训练时直接学搬运速度场。

6.4 2-3 分钟展开回答

Diffusion Policy 的问题是每次推理要多步去噪。如果机器人控制频率是 10-30Hz，多步采样会成为瓶颈。加速可以从模型、采样和系统三层做。

采样层：DDIM 或 DPM-Solver（扩散概率模型求解器） 类方法减少采样步数，从几十步降到几步。优点是简单，缺点是步数太少可能动作质量下降。

模型层：Consistency model 把一个多步生成过程蒸馏成少步映射，让模型在不同噪声水平上输出一致结果。优点是推理快，缺点是蒸馏数据和 teacher（教师模型） 质量很关键。

训练目标层：Flow matching 直接学习从噪声到动作的速度场，推理时通过 ODE（Ordinary Differential Equation，常微分方程） 积分生成。它不等同于 DDIM，也不只是蒸馏，而是另一种生成建模目标。

系统层：即使生成模型本身不够快，也可以用 action chunk 和异步推理。机器人执行当前 chunk 时，后台生成下一段，降低等待时间。

6.5 常见追问

• 少步采样导致动作不稳定怎么办？• 机器人实时控制是否必须一步生成？• 加速后怎么评估？

6.6 高分追问回答

实时控制不一定要求一步生成，因为策略频率和低层控制频率可以分开。比如策略 5-10Hz 输出 chunk，低层控制器 100-1000Hz 插补执行。加速后不能只看 inference time，还要看成功率、轨迹平滑、碰撞率、恢复能力和长任务完成率。

7. Q5：VLA 的动作头怎么选？离散 action token、diffusion 和 flow matching 怎么对比？

7.1 面试官问法

• RT-2/OpenVLA 为什么把动作离散成 token？• Octo/Diffusion Policy/π0 为什么更强调连续 action chunk？• 如果换机器人平台，action head 要怎么适配？

7.2 考察点

这是近期 VLA 高频题。面试官想看你是否理解：VLM 语义能力和低层连续控制不是同一个问题，动作表示会直接影响控制精度、泛化和部署延迟。

7.3 30 秒回答

• *VLA 的动作头本质是在回答“语言视觉表示怎么变成机器人可执行动作”。**RT-2/OpenVLA 这类路线把动作离散化成 token，优点是能复用 LLM 自回归训练范式，工程统一；缺点是连续控制精度受 binning/action schema 影响。Diffusion/Octo/π0 这类路线更强调连续 action chunk，能更自然建模多峰轨迹和平滑控制；其中 π0 用 flow matching action expert，把预训练 VLM 的语义表示接到连续动作生成上。

7.4 2-3 分钟展开回答

离散动作 token 的优点是统一。图像、语言和动作都可以进同一个 token 序列，训练目标类似 next-token prediction，所以能直接利用大模型工具链和预训练能力。缺点也明显：机器人动作本来是连续的，平移、旋转、夹爪、关节速度被离散化以后，精度和动作平滑性依赖 bin 数、动作归一化和控制频率。

连续动作头的优点是更贴近控制。Diffusion Policy、Octo 或 flow matching policy 通常输出未来一段 action chunk，而不是单个 token。这样可以建模时间相关性、多峰路径选择和轨迹平滑。π0 的代表性在于：VLM 负责理解图像和语言，flow matching action expert 负责生成连续动作轨迹。

如果换机器人平台，核心问题不是只改 prompt，而是 action schema 变了：末端位姿、关节空间、夹爪、双臂同步、移动底盘都有不同维度和归一化方式。实际项目中通常需要重新训练或微调 action head / adapter，并重新计算数据统计量；LoRA 只能帮助适配 backbone，不一定能解决动作空间不匹配。

7.5 高分追问回答

我会按任务选动作头：语义泛化强、动作频率不高、动作空间简单时，离散 token VLA 更容易搭建；高精度 manipulation、接触丰富、动作连续性要求高时，更倾向 diffusion/flow action chunk。工程上还要看推理频率：策略可以 5-10Hz 生成 chunk，低层控制器 100-1000Hz 跟踪插补，不要求大模型每个低层控制周期都推理一次。

8. Q6：DDQN 和 PPO 有什么区别？PPO 的优势函数怎么计算？

8.1 面试官问法

• DDQN 和 PPO 的区别是什么？• PPO 的 advantage 怎么算？• 为什么机器人里 PPO 比 DQN 类方法更常见？

8.2 考察点

这是强化学习基础。机器人动作通常连续，所以面试官会看你是否知道 value-based 和 policy-based 的区别。

8.3 30 秒回答

DDQN（Double Deep Q-Network，双重深度 Q 网络） 是 value-based（基于价值） 方法，主要适合离散动作，通过估计 Q 值选动作；PPO 是 policy-gradient（策略梯度） 方法，直接优化策略，适合连续动作控制。PPO 的优势函数常用 GAE（Generalized Advantage Estimation，广义优势估计） 计算，近似衡量当前动作比 value baseline 好多少。机器人连续控制里 PPO、SAC、TD3 这类方法通常比 DQN/DDQN 更常见。

8.4 2-3 分钟展开回答

DDQN 解决的是 DQN 的过估计问题，用 online network 选动作、target network 估值。它适合离散动作，比如 Atari。机器人控制常见动作是连续的末端位姿、关节速度或 torque，直接离散化会维度爆炸，所以 DQN 系列不常作为低层控制首选。

PPO 直接输出动作分布，比如高斯策略，然后用采样轨迹更新策略。Advantage 可以简单写成：

实践中常用 GAE：

GAE 用平衡 bias（偏差） 和 variance（方差）。越接近 1，方差更大但偏差更小；越接近 0，更依赖一步 TD（Temporal Difference，时序差分），方差小但偏差大。

8.5 高分追问回答

如果面试官问 PPO 为什么在机器人里仍然难，答案是：真机采样贵、探索危险、reward 设计难、reset 成本高。PPO 本身稳定，但不等于适合直接在真机从零训练。更常见路线是仿真 RL + sim-to-real，或者先用模仿学习初始化再做 RL fine-tuning。

9. Q7：VLA 输出动作抖动/跳变，从模型层面怎么约束？

9.1 面试官问法

• 除了后处理滤波，怎么解决动作抖动？• policy 输出波动大，你会在 policy 层加滤波还是 loss 层加 penalty？• action drift 怎么防止？

9.2 考察点

这是模型和控制结合题。面试官不希望只听到“加低通滤波”。

9.3 30 秒回答

• *我会先定位抖动来源，再分层处理。**模型层可以用 action chunk、temporal smoothness loss（时间平滑损失）、速度/加速度/jerk penalty（加加速度惩罚）、trajectory diffusion/flow、temporal ensemble（时间集成）、一致性正则和不确定性过滤。

后处理滤波可以用，但它会引入滞后，所以不能作为唯一方案。

9.4 2-3 分钟展开回答

动作抖动可能来自观测噪声、时间不同步、模型不确定性、训练数据抖动、动作表示不连续或低层控制器不匹配。不同来源处理方式不同。

模型层面有几种方法：

• 预测 action chunk，而不是单步动作，让模型学习短轨迹结构。

• 在 loss 中加入、加速度或 jerk penalty。

• 用 diffusion/flow 生成整段轨迹，建模时间相关性。

• 对重叠 chunk 做 temporal ensemble，减少边界跳变。

• 加 consistency regularization，让相邻观测输出一致。

• 用 uncertainty（不确定性） 触发低速模式或 fallback（失败兜底策略）。

滤波适合作为安全补丁，但会带来相位滞后。比如抓取接触瞬间，如果滤波过强，夹爪可能错过最佳闭合时机。因此高分回答要说**“先模型和数据，再工程滤波兜底”**。

10. Q8：PPO 为什么用 Clip 机制？它如何保证策略更新稳定？

10.1 面试官问法

• PPO 中 clip objective 怎么写？• 为什么不用传统 KL 约束？• Clip 机制怎么避免策略崩？

10.2 考察点

PPO 是具身智能/RL 基础高频题。回答要讲 ratio、advantage、trust region 的近似。

10.3 30 秒回答

PPO（Proximal Policy Optimization，近端策略优化） 用新旧策略概率比和 advantage（优势函数） 构造 clipped objective（截断目标函数），限制策略单次更新幅度。相比 TRPO（Trust Region Policy Optimization，信赖域策略优化） 的显式 KL 约束，clip 实现简单、无需二阶优化，对超参更鲁棒 。它 不是严格保证 KL 不超界，而是通过截断过大的概率比，降低策略更新过猛导致崩溃的风险。

10.4 2-3 分钟展开回答

PPO 的核心目标可以写成：

其中。如果 advantage 为正，说明这个动作比平均好，更新会提高它的概率；但如果提高太多，ratio（新旧策略概率比） 超过，clip 会限制收益。advantage 为负时，策略会降低该动作概率，但降低过多也会被限制。

PPO 的直觉是 trust region（信赖域，限制策略每次不要变化太大）。TRPO 用 KL 约束显式限制新旧策略差异，但实现复杂；PPO 用 clip 做一阶近似，工程上更简单。

需要强调：clip 不是严格数学保证策略稳定。实践中仍要监控 KL（KL 散度）、entropy（熵，衡量策略随机性）、value loss（价值函数损失）、clip fraction（被截断样本比例）、reward 曲线和梯度。如果 KL 突然飙升，说明策略更新仍然过大。

10.5 常见追问

• PPO 训练崩了怎么 debug？• entropy bonus 有什么用？• PPO 在真机机器人上难在哪里？

10.6 高分追问回答

PPO 崩溃先看 KL、clip fraction、advantage scale、reward scale 和 value loss。如果 KL 大，降低学习率或 epoch；如果 entropy(熵) 掉太快，策略过早收敛；如果 value loss 爆炸，说明 critic 不稳。真机难点是采样贵、探索危险、reward 难设计、reset 成本高，所以常用仿真训练、离线数据初始化、safe RL 或只在高层策略上用 RL。

11. Q9：SAC/TD3 为什么在机器人连续控制里高频？和 PPO 怎么选？

11.1 面试官问法

• PPO、SAC、TD3 分别适合什么机器人任务？• 为什么机器人连续控制常见 SAC/TD3？• off-policy 比 on-policy 的优势和风险是什么？

11.2 考察点

这是 RL 工程题。很多候选人只背 PPO，但机器人真机采样昂贵，面试官会看你是否理解 sample efficiency、critic 稳定性、探索安全和 replay buffer。

11.3 30 秒回答

• *PPO 是 on-policy，稳定、实现成熟，但样本效率低；SAC/TD3 是 off-policy actor-critic，能复用 replay buffer，更适合样本昂贵的连续控制。**SAC 加最大熵目标，鼓励探索并提升稳定性；TD3 用双 critic、延迟策略更新和 target smoothing 缓解 Q 过估计。机器人里如果是仿真大规模并行训练，PPO 很常见；如果是真机样本贵或需要复用历史数据，SAC/TD3/离线 RL 更值得考虑。

11.4 2-3 分钟展开回答

PPO 的优点是更新受 clip 限制，工程上比较稳，适合仿真里并行采样大量 rollouts，比如 locomotion 或高层策略。但它每次更新依赖当前策略采样的数据，旧数据很快不能再用，所以真机效率不高。

SAC 是 off-policy maximum entropy 方法。它同时最大化 reward 和 entropy，让策略不要太早变确定，从而增强探索和鲁棒性。因为可以使用 replay buffer，采样效率通常比 PPO 更高。TD3 也是 off-policy，重点解决 actor-critic 中 Q 值过估计：用两个 critic 取较小值、延迟 actor 更新，并对 target action 加平滑噪声。

选择时看约束：

• 仿真并行、reward 清楚、需要稳定 baseline：PPO。• 连续控制、样本贵、希望复用数据：SAC/TD3。• 数据主要来自示教或日志，不能在线探索：离线 RL 或 BC + conservative fine-tuning。• VLA 后训练：通常不直接从零 RL，而是先 imitation/VLA 初始化，再在仿真或安全约束下做少量 RL。

11.5 高分追问回答

off-policy 的风险是 distribution shift。critic 会在数据覆盖不足的动作上外推错误，导致 actor 利用错误 Q 值。解决方法包括保守 Q 学习、限制策略偏离行为策略、用示教数据 warm start、加安全约束和只在仿真中做大范围探索。真机上我不会让随机探索直接接管低层控制，而会把 RL 放在 residual、高层 subgoal 或受限 action space 里。

12. Q10：离线 RL/CQL/IQL/AWAC 在机器人里解决什么问题？

12.1 面试官问法

• 只有历史示教数据，能不能用 RL 超过 BC？• offline RL 和 behavior cloning 的区别是什么？• CQL/IQL/AWAC 分别在防什么问题？

12.2 考察点

这是“从真实数据学习机器人策略”的高频方向。回答要抓住核心矛盾：离线 RL 想利用 reward 提升策略，但不能在线试错，所以最怕对数据外动作的 Q 值过度乐观。

12.3 30 秒回答

distribution shift（分布偏移）

和 Q 外推误差。CQL 倾向把数据外动作的 Q 压低，IQL 避免显式查询 OOD 动作，AWAC/AWR 用 advantage weighting 在不偏离数据太远的情况下强化好动作。

12.4 2-3 分钟展开回答

在机器人里，离线 RL 很有吸引力，因为真机探索贵且危险，而实验室往往已有大量 teleop、失败轨迹、仿真轨迹或历史日志。问题是：如果 actor 选了数据里没见过的动作，critic 没有真实反馈，只能外推；一旦 Q 被高估，策略就会朝不可执行动作跑。

几类方法的直觉：

• CQL：保守估计 Q，宁愿低估数据外动作，避免 actor 利用虚高 Q。• IQL：通过 expectile value learning 和 advantage-weighted regression，尽量在数据分布内提升。• AWAC/AWR：仍然像加权 BC，给高 advantage 的动作更高权重，降低偏离行为策略的风险。

和 BC 的区别是：BC 不需要 reward，稳定但可能复制次优行为；离线 RL 需要 reward 或成功标签，有机会从混合质量数据中提取更优行为，但对数据覆盖、reward 质量和保守性很敏感。

12.5 高分追问回答

我会先问数据质量：如果数据几乎都是专家成功轨迹，BC/ACT/Diffusion Policy 往往够用；如果数据里有失败、次优和恢复片段，离线 RL 才更有价值。部署前必须做离线 policy evaluation、仿真回放、OOD 检测和安全约束，不能只看离线 Q 值。

13. Q11：GRPO 和 PPO 的区别是什么？机器人里能不能用？

13.1 面试官问法

• GRPO 和 PPO 有什么区别？• 为什么 GRPO 可以不用 value model？• GRPO 适合 VLA 或机器人后训练吗？

13.2 考察点

这是大模型 RL 和机器人 RL 的交叉题。高分回答要避免把 LLM 的 GRPO 直接套到低层控制。

13.3 30 秒回答

PPO 通常用 critic/value model（价值模型） 估计 advantage；GRPO（Group Relative Policy Optimization，组相对策略优化） 用同一 prompt 下多条 sampled outputs（采样输出） 的组内相对奖励来估计 advantage，可以省掉 value model。它适合 LLM 这种可对同一问题采多条回答并比较奖励的场景。机器人里可以借鉴“组内相对排序”做高层策略或轨迹候选选择，但不宜直接替代低层连续控制的稳定 RL 框架。

13.4 2-3 分钟展开回答

PPO 的 advantage 通常来自 reward-to-go 减 value baseline。value model 的作用是降低方差，但也带来训练成本和误差。

GRPO 的思路是：对同一个输入采样一组输出，得到一组 reward，然后用组内均值和标准差归一化，构造相对 advantage。这样不需要单独训练 value model。这在 LLM reasoning（大语言模型推理任务） 中很自然，因为同一个数学题可以采多个答案，并用规则或 reward model（奖励模型） 打分。

机器人里使用要谨慎。低层连续控制的状态会被动作改变，采样多条轨迹代价很高，而且真机无法轻易 reset。GRPO 更适合：

reranking（重排序/候选轨迹再排序）

。

如果直接用于真机低层控制，要解决安全、采样成本、状态一致性和 reset 问题。

13.5 常见追问

• GRPO 为什么在 LLM 中流行？• 它和 rejection sampling 有什么区别？• 如果用在 VLA 后训练，你会怎么设计？

13.6 高分追问回答

GRPO 在 LLM 中流行是因为它省 value model，适合按 prompt（提示词/任务输入） 采样多个候选并基于相对奖励优化。Rejection sampling（拒绝采样） 只筛选好样本再监督学习，不直接做策略梯度；GRPO 仍然更新策略概率。用于 VLA 后训练时，我会先在仿真或离线环境中生成多个候选 action chunk，用成功预测器、安全约束、轨迹平滑和任务 reward 打分，再谨慎更新高层或 action head。

14. Q12：RL 在 VLA 里怎么用？奖励函数怎么设计？

14.1 面试官问法

• VLA 里为什么还需要 RL？• 奖励函数怎么设计？• 真机 RL 最大困难是什么？

14.2 考察点

这是工程 RL 题。回答要克制，不能说“用 RL 自动优化一切”。

14.3 30 秒回答

RL（Reinforcement Learning，强化学习） 在 VLA 中通常用于补足模仿学习：优化最终任务成功、恢复失败、提升策略鲁棒性或对齐人类偏好。奖励可以由任务成功、距离进度、接触状态、安全约束、动作平滑和时间惩罚组成。但真机 RL 难在采样成本、探索安全、reset（重置）、reward hacking（奖励黑客）和 sim-to-real gap（仿真到真机差距）。

14.4 2-3 分钟展开回答

模仿学习只能学到数据里出现过的行为，遇到偏离专家轨迹的状态容易失败。RL 可以通过环境反馈优化任务目标，特别适合恢复、探索和精细策略改进。

奖励设计可以分层：

• 稀疏成功奖励：抓起、放到目标区域、门打开。• dense shaping：到目标距离减少、姿态对齐、夹爪接近目标。• 安全惩罚：碰撞、越界、速度过大、力过大。• 平滑惩罚：动作变化、加速度、jerk。• 时间惩罚：鼓励快速完成，但不能导致鲁莽动作。

真机 RL 最大问题是探索会损坏硬件或环境，所以通常不从零开始。更合理路径是：先用 BC/ACT/DP 初始化，再在仿真中 RL，最后少量真机 residual fine-tuning 或 human-in-the-loop 后训练。

14.5 常见追问

• reward hacking 怎么避免？• RLHF 在机器人里怎么做？• risk-aware training 怎么讲？

14.6 高分追问回答

避免 reward hacking 要用多指标评估和安全约束，不能只优化一个代理 reward。RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习） 可以让人类比较轨迹好坏、标注成功/失败、提供偏好模型，然后用于 reranking 或策略更新。Risk-aware training（风险感知训练） 可以用 failure penalty（失败惩罚）、CVaR（条件风险价值）、constraint violation cost（约束违反代价） 或 safety critic（安全评价器），让策略关注低概率高损失事件。

15. 高频追问补充：风险训练、不确定性、控制稳定性和轨迹优化

这一节适合回答手术机器人或高风险 manipulation 场景。面试官关心的不是“模型平均成功率高不高”，而是失败代价高时你怎么训练、怎么估计不确定性、怎么限制动作、怎么证明或至少工程上保证控制稳定。

15.1 Surgical robotics policy failure cost 很高，怎么做 risk-aware training？

高风险任务不能只优化 average loss 或 average success rate。手术机器人里一次碰撞、过大拉力、误切组织、工具越界都可能是严重失败，所以要关注 tail risk。

常见做法：

constraint violation penalty（约束违反惩罚）：碰撞、接触力过大、速度过大、关节/工作空间越界都加惩罚。

CVaR loss（条件风险价值损失）：重点优化最差一部分样本的损失，而不是平均损失。

• failure trajectory reweighting：训练时提高失败边缘、危险接触和人工接管样本权重。

• safety critic / risk critic：学习状态-动作风险评分，推理时拒绝高风险动作。

• shielded policy：学习策略输出先经过规则安全层、CBF 或 MPC 检查。

• staged deployment：离线回放、仿真压力测试、影子模式、低速真机、人工监督逐级上线。

CVaR 的直觉是：如果只看平均表现，模型可能在 95% 简单样本上很好，但在 5% 高风险样本上失败；CVaR 让训练更关注这 5% 最坏尾部。

15.2 Uncertainty 怎么量化？epistemic 和 aleatoric 怎么对比？

epistemic uncertainty（认知不确定性） 是模型因为 没见过类似数据而不确定。典型估计方法是 ensemble variance、MC dropout、不同 checkpoint 分歧、test-time augmentation 分歧。它通常可以通过补数据、微调或更好覆盖降低。

aleatoric uncertainty（偶然不确定性） 是 数据本身噪声或不可观测导致的不确定，例如遮挡、反光、组织变形、传感器噪声。它不能简单靠更多同类数据消除，需要多模态观测、触觉/力觉、保守控制或请求人工确认。

在 diffusion/flow policy 里可以用多次采样的 action variance、trajectory diversity、denoising residual、ensemble disagreement 来估计不确定性。部署时不确定性高不一定代表“模型错了”，但应该触发降速、重观测、选择保守轨迹或人工接管。

15.3 LQR 的 gain matrix 是 constant 吗？有没有 gain scheduling？

LQR（Linear Quadratic Regulator，线性二次调节器） 的标准形式是在某个线性系统或局部线性化点上求 constant gain matrix：

如果系统工作点变化不大，constant gain 可以够用；但机器人任务有不同阶段、接触状态和非线性动力学，constant gain 往往不够。

gain scheduling（增益调度） 是根据状态或任务阶段切换/插值不同的。调度指标可以包括末端误差、速度/加速度、接触力、关节构型、任务阶段、不确定性或风险评分。回答时要强调：gain scheduling 不是随便调参，而是基于工作点、线性化模型或经验验证，让不同阶段的跟踪刚度、阻尼和响应速度更合适。

15.4 控制系统稳定性怎么保证？有没有 Lyapunov 证明？

纯 neural policy 很难给出完整形式化稳定性证明。高分回答应该诚实区分：学习策略本身、低层控制器、安全过滤器分别能保证什么。

常见工程架构是：高层 VLA/diffusion policy 输出参考位姿或短轨迹；低层 PID/LQR/MPC/impedance controller 负责跟踪；安全层负责限速、限幅、碰撞检测和中断。这样可以对低层跟踪误差做稳定性分析，而不是直接证明一个端到端大模型稳定。

如果要讲 Lyapunov，可以说：对于低层误差动力学，可选作为候选 Lyapunov 函数，证明在合适增益和有界扰动下或误差最终有界。对于学习策略，可通过 bounded action、rate limit、control barrier function、MPC safety filter 和 empirical stress test 降低风险。

如果项目没做形式化证明，应回答：

我没有声称端到端 neural policy 有完整 Lyapunov 证明。我们把稳定性责任放在低层控制和安全过滤器上，学习模型只输出有界参考轨迹，并通过限速、工作空间约束、force threshold 和人工接管保证部署安全。

15.5 Policy 输出波动大，加滤波器还是 loss penalty？

首先纠正概念：平滑动作通常不是加高通滤波器，而是低通滤波、moving average、rate limiter 或训练时 smoothness penalty。高通滤波会保留高频变化，可能放大抖动。

两种路线的取舍：

• 部署后处理：低通滤波或 rate limiter 简单有效，但会引入相位延迟，接触任务可能错过关键时机。• 训练约束：在 loss 中加入 velocity、acceleration、jerk 或 action delta penalty，让模型本身学平滑动作，更根本。

更好的工程答案是二者结合：训练时加入 temporal smoothness / consistency loss，部署时只做轻量限速和安全滤波，避免过度滤波影响控制响应。

16. Q13：LoRA 原理是什么？为什么 VLA 微调也会问 LoRA？

16.1 面试官问法

• LoRA 的原理是什么？• 为什么微调大模型不直接全量更新？• LoRA 用在 VLA 里适合调哪些部分？

16.2 考察点

这是大模型微调基础。VLA 面试里问 LoRA，通常是因为 OpenVLA、VLM backbone 或语言模型部分参数很大，全量微调成本高。

16.3 30 秒回答

LoRA（Low-Rank Adaptation，低秩适配） 的核心是低秩增量更新。原本要更新一个大权重矩阵，LoRA 冻结，只学习一个低秩增量，其中和很小。这样能用少量参数适配新任务，降低显存和训练成本。VLA 里常用于语言模型、视觉语言投影层或 action head 的轻量微调。

16.4 2-3 分钟展开回答

假设原始线性层是。全量微调会直接更新，成本很高。LoRA 改成：

其中 冻结，和是低秩矩阵，rank 通常远小于原始维度。这样训练参数少，显存占用低，也更不容易破坏预训练知识。

在 VLA 里，LoRA 适合用在三个位置：

• VLM/LLM backbone：适配语言指令和机器人任务。• 视觉语言投影层：对齐图像 token 和语言 token。• action 相关模块：如果动作空间变化不大，可以轻量适配。

但如果机器人 action schema 完全变了，只加 LoRA 不一定够，可能需要重新训练 action head 或 adapter。

16.5 常见追问

• LoRA rank 怎么选？• LoRA 和 adapter 有什么区别？• LoRA 会不会影响推理速度？

16.6 高分追问回答

rank（低秩矩阵的秩） 越大表达力越强，但参数和过拟合风险也更高。LoRA 是加低秩增量，adapter（适配器） 通常是插入小网络模块。LoRA 可以在推理前 merge（合并） 到原权重里，所以推理开销可以很小。机器人里要特别注意：LoRA 解决的是模型适配，不解决动作空间不匹配。

17. Q14：Batch Size 增大，学习率怎么变？

17.1 面试官问法

• batch size 变大，learning rate 应该怎么调？• 线性缩放规则是什么？• 大 batch 训练有什么风险？

17.2 考察点

这是训练基础题。回答要讲清楚“梯度噪声”和“稳定性”，不要只背线性缩放。

17.3 30 秒回答

经验上 batch size 增大时，可以按线性缩放规则增大学习率，例如 batch 翻倍，学习率也近似翻倍，但通常要配合 warmup。原因是大 batch 的梯度估计噪声更小，可以承受更大步长。风险是泛化可能变差、学习率过大会不稳定，所以要看 loss、梯度范数和验证成功率。

17.4 2-3 分钟展开回答

小 batch 梯度噪声大，但有时有正则化效果；大 batch 梯度更稳定，训练吞吐更高，但可能收敛到泛化较差的解。线性 scaling rule 是一个经验法则，不是定理。

机器人策略训练里还要注意：loss 降低不一定等于真机成功率提高。如果 batch 变大后，模型输出更平滑但泛化变差，需要看任务成功率、OOD 场景和动作分布，而不是只看训练 loss。

17.5 高分追问回答

我会先用线性缩放作为起点，再加 warmup（学习率预热） 和梯度裁剪。如果出现 loss spike（损失突然尖峰） 或动作不稳定，先降学习率；如果训练很慢但稳定，可以逐步增大。对于 VLA 微调，宁愿保守一点，因为过大的学习率可能破坏预训练视觉语言能力。

18. Q15：注意力机制复杂度是多少？多头注意力怎么手撕？

18.1 面试官问法

• self-attention 的计算复杂度是多少？• 多头注意力为什么要分多个 head？• 用 PyTorch 写一个简化版 multi-head attention。

18.2 考察点

这是 VLM/VLA 基础。面试官想看你是否理解 token 数对推理延迟的影响。机器人里多相机、多帧历史会让 token 数变大，attention 的二次复杂度就会成为瓶颈。

18.3 30 秒回答

标准 self-attention 对序列长度、隐藏维度的复杂度大约是，瓶颈来自 的注意力矩阵。多头注意力把特征分成多个子空间，让不同 head 学不同关系，比如空间关系、时间关系、语义关系。VLA 里要控制图像 token、历史帧和多视角 token 数，否则延迟会爆。

18.4 简化版 PyTorch 代码

import torch
import torch.nn as nn
import torch.nn.functional as F

class MultiHeadSelfAttention(nn.Module):
    def __init__(self, dim: int, num_heads: int):
        super().__init__()
        assert dim % num_heads == 0
        self.num_heads = num_heads
        self.head_dim = dim // num_heads
        self.qkv = nn.Linear(dim, dim * 3)
        self.out = nn.Linear(dim, dim)

    def forward(self, x):
        # x: [B, N, D]
        b, n, d = x.shape
        qkv = self.qkv(x).view(b, n, 3, self.num_heads, self.head_dim)
        qkv = qkv.permute(2, 0, 3, 1, 4)
        q, k, v = qkv[0], qkv[1], qkv[2]  # [B, H, N, Dh]
        scores = (q @ k.transpose(-2, -1)) / (self.head_dim ** 0.5)
        attn = F.softmax(scores, dim=-1)
        y = attn @ v  # [B, H, N, Dh]
        y = y.transpose(1, 2).contiguous().view(b, n, d)
        return self.out(y)

18.5 高分追问回答

机器人里 attention 复杂度不是抽象问题。多视角图像、历史帧、语言 token、状态 token 全部拼起来后，n 会很大。优化手段包括减少图像 token、使用 pooling、只保留关键帧、分层 attention、cross-attention 替代全量 self-attention、KV cache 和异步推理。