• 正文
  • 相关推荐
申请入驻 产业图谱

2026 具身智能算法面试高频题:动作生成 / RL / 部署全解析

05/18 15:22
1766
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

转载自公众号:敢敢AUTOHUB

原标题:具身智能TL常用算法面经:生成式策略基础与 RL (四)

1. 博客导读

这篇是具身智能算法基础面试的主战场。面试官如果从 VLA 模型继续往下追,通常会追到 动作如何生成、为什么用 action chunk、CVAE/Diffusion/Flow Matching 怎么选、RL 怎么后训练、PPO/SAC/TD3/离线 RL 有什么区别,以及部署时如何保证动作稳定

建议按下面顺序看:

1. 先理解 action chunk + CVAE/ACT:为什么机器人策略不能只做单步 MSE 回归。

2. 再理解 Diffusion Policy、Flow Matching、Consistency Model:这是 2024-2026 VLA 动作头和生成式策略的核心。

3. 再看 VLA action representation:RT-2/OpenVLA 的离散动作 token,Octo/Diffusion Policy 的连续轨迹,π0 的 flow matching action expert。

4. 然后进入 RL 高频题:DDQN vs PPO、PPO clip/GAE、SAC/TD3、离线 RL、GRPO/RLHF、reward design。

5. 最后补 部署和训练工程:动作抖动、不确定性、risk-aware training、LoRA、attention 复杂度、batch size 和学习率。

这篇目的不是罗列论文名,而是把面试中容易被深挖的算法问题串成一条线:先用模仿学习学会动作分布,再用生成式模型表达多峰轨迹,必要时用 RL/偏好优化做后训练,最后用控制和安全层保证真机可部署

2. 阶段四总图谱:从动作生成到后训练

模块 代表方法 在机器人里的作用 面试重点 风险/短板
基础模仿学习 BC、ACT、CVAE 从示教数据学习动作或动作块 compounding error、多峰动作、latent style 容易学平均动作,OOD 状态恢复弱
扩散策略 Diffusion Policy、DDIM、DPM-Solver 条件生成连续 action chunk joint distribution、去噪目标、receding horizon 多步采样慢,部署需优化
流匹配策略 Flow Matching、π0 action expert 学噪声到动作的连续向量场 velocity field、ODE 积分、连续动作头 训练/实现复杂,稳定性依赖设计
少步生成 Consistency Model、蒸馏 把多步生成压到少步/一步 延迟、质量-速度权衡 蒸馏质量和鲁棒性要验证
在线 RL PPO、SAC、TD3 用环境反馈优化成功率和恢复能力 on-policy/off-policy、entropy、critic 稳定性 真机采样贵,探索危险
离线/批量 RL CQL、IQL、AWAC/AWR 从历史轨迹中超过行为策略 distribution shift、保守 Q、advantage weighting 数据覆盖不足时容易外推错误
大模型后训练 DPO、PPO、GRPO、RLHF/RLAIF 用偏好、规则 reward 或成功预测器对齐 VLA value model、relative advantage、reranking 不能直接照搬 LLM 到低层控制
部署稳定性 smoothness loss、MPC/CBF、uncertainty 约束动作抖动和风险 jitter、risk-aware、Lyapunov 边界 端到端神经策略难形式化证明

3. Q1:ACT/action chunking 为什么重要?CVAE latent style 在 ACT 里有什么作用?

3.1 面试官问法

    • ACT 为什么不用普通 Transformer 回归?• CVAE 的 latent 表示什么?• VAE loss 怎么写?

3.2 考察点

这是基础生成模型题。面试官会看你是否理解“多解动作”和“平均动作问题”。

3.3 30 秒回答

CVAE(Conditional VAE,条件变分自编码器)在 ACT 里用于建模同一观测下多种合理动作风格。训练时 encoder(编码器) 看专家 action chunk(动作块),把轨迹压成 latent(潜变量)decoder(解码器 根据图像、状态和  重建动作 chunk。这样模型不会只用 MSE(Mean Squared Error,均方误差) 学成平均动作,而能表达不同示教风格或路径选择

3.4 2-3 分钟展开回答

VAE(Variational Autoencoder,变分自编码器) 的基本思想是用 latent variable(潜变量) 表示数据背后的隐含因素。普通 autoencoder(自编码器) 只学编码和重建,VAE 额外约束  接近一个 prior distribution(先验分布),比如标准高斯,这样推理时可以从先验采样。

CVAE 是 conditional VAE(条件 VAE)。机器人里条件  可以是图像、语言、机器人状态;目标  是未来动作 chunk。训练目标通常包括两部分:

在 ACT 中, 可以理解成示教风格或局部轨迹模式。例如同一个抓取任务,可以从左边接近,也可以从右边接近;可以先抬高手臂再伸过去,也可以直线接近。没有 latent 时,MSE 可能把多个模式平均成一个不可执行轨迹

推理时没有专家动作,所以不能用 posterior encoder(后验编码器),只能从 prior(先验分布) 采样或用  的均值。实际项目里为了稳定,很多时候会取均值而不是随机采样。

3.5 常见追问

    • posterior collapse 是什么?• KL 权重怎么调?• CVAE 和 diffusion 都能建模多峰,区别是什么?

3.6 高分追问回答

Posterior collapse(后验坍塌)指 decoder 太强,模型忽略 ,导致 latent 不携带动作风格信息。可以通过调小 KL 权重、KL annealing(KL 权重退火,逐步增大 KL 项权重)、限制 decoder、增大 latent 作用路径来缓解。CVAE 推理快、工程简单,但分布表达不如 diffusion/flow 强;diffusion 更适合复杂连续轨迹,但推理更慢。

4. Q2:Diffusion Policy 是如何建模 action space 的?joint distribution 还是 marginal?

4.1 面试官问法

    • Diffusion Policy 建模的是单步动作还是轨迹?• 它是 joint distribution 还是每一维独立?• 为什么 diffusion 比 BC 更适合多峰动作?

4.2 考察点

这是扩散策略核心题。回答要明确:通常建模未来 action chunk 的联合分布。

4.3 30 秒回答

Diffusion Policy(扩散策略)通常建模未来一段 action chunk 的 conditional joint distribution(条件联合分布)不是每个时间步或每个维度独立建模。训练时给真实动作轨迹加噪,模型学习在观测条件下 denoise(去噪);推理时从高斯噪声开始,多步去噪得到连续动作轨迹。

4.4 2-3 分钟展开回答

机器人动作不是独立标量。末端位移、旋转、夹爪开合和时间步之间有强相关性。比如抓取时,手先接近,夹爪再闭合,然后抬起;如果每个动作维度独立预测,很容易破坏这种时序结构。

Diffusion Policy 把整个 action chunk 当成一个高维样本。训练时随机采一个噪声等级,把真实动作 chunk 加噪成 noisy action(带噪动作),再让模型预测噪声或干净动作。模型条件包括视觉特征、机器人状态、语言指令和 diffusion timestep(扩散时间步)

它比 BC 更适合多峰动作,是因为BC 的 MSE 对多模态分布会学均值,而 diffusion 能从噪声采样出不同模式。比如绕障碍物时,左绕和右绕都是合理解,平均轨迹可能撞障碍;生成模型可以保留两个模式。

4.5 常见追问

    • 推理时每次采样不同,机器人会不会不稳定?• 如何控制 diffusion policy 的动作平滑?• 采样步数太多怎么办?

4.6 高分追问回答

部署时通常不会无限随机采样,可以固定

seed(随机种子)low-temperature sampling(低温采样,降低随机性)、选择高置信轨迹或用receding horizon(滚动时域,只执行前几步再重规划)。平滑性来自三个层面:训练数据本身平滑、生成整个 action chunk、loss 中加入速度/加速度penalty(惩罚项)或用 temporal ensemble。采样慢可以用 DDIM(确定性扩散隐式模型采样)、少步sampler(采样器)distillation(蒸馏)、consistency model 或 flow matching。

5. Q3:Flow Matching 是什么?和 Diffusion/DDIM 的区别是什么?

5.1 面试官问法

    • Flow matching 怎么解释?• π0 为什么用 flow matching?• Flow matching 和 diffusion 本质区别是什么?

5.2 考察点

这是 2025-2026 VLA 高频基础。面试官想看你是否能用直觉解释,而不是只背公式。

5.3 30 秒回答

Flow Matching(流匹配)学的是一个连续时间 vector field(向量场),把简单噪声分布中的样本沿着流搬运到真实动作分布。Diffusion 更常见的说法是逐步加噪和逐步去噪;flow matching 直接监督中间路径上的 velocity field(速度场)。对机器人动作来说,它适合生成连续 action chunk,并且有少步推理潜力。

5.4 2-3 分钟展开回答

可以用 “搬运” 来理解 flow matching。假设起点是高斯噪声 ,终点是真实动作轨迹 。我们在中间时间  构造一个插值点 ,模型学习此时应该沿哪个方向移动,也就是速度 。推理时从噪声出发,沿模型预测的速度场积分,最后到达动作轨迹

Diffusion 的训练常围绕噪声预测或 score matching(分数匹配),推理是反向去噪过程。Flow matching 则更直接地学习从源分布到目标分布的向量场。两者都可以看作生成模型,但训练目标和采样路径表述不同

机器人里使用 flow matching 的原因:

    • • 动作是

连续轨迹,向量场生成很自然

    • 。• 可以输出 action chunk,适合低频策略 + 高频控制器。• 相比传统多步 diffusion,

有潜力用更少步数得到可用动作

    。• 易于和 VLM 条件结合,让语义上下文调制动作生成。

5.5 常见追问

    • Flow matching 是不是一定比 diffusion 快?• 一致性模型和 flow matching 有什么不同?• Flow matching 训练需要什么监督?

5.6 高分追问回答

不一定。Flow matching 有少步推理潜力,但实际速度取决于网络大小、积分步数、稳定性和部署优化。Consistency model(一致性模型) 更像把多步生成过程蒸馏成少步映射,目标是快速采样;flow matching 是直接学习连续向量场。训练监督来自真实动作样本和构造的噪声-数据路径,不需要 RL reward。

6. Q4:一致性模型/流匹配如何加速 VLA 推理?和 DDIM 蒸馏区别是什么?

6.1 面试官问法

    • 多步 diffusion 太慢,你怎么加速?• Consistency model、DDIM、flow matching 的关系是什么?• 加速会不会牺牲动作质量?

6.2 考察点

这是生成模型和部署结合题。回答要落到机器人推理延迟。

6.3 30 秒回答

加速思路有三类:用 DDIM/少步 sampler 减少去噪步数;用一致性模型把多步生成蒸馏成一步或少步;用 flow matching 学向量场并用少步 ODE 积分生成动作。区别在于DDIM 是换采样路径,consistency 更偏蒸馏快速映射,flow matching 是训练时直接学搬运速度场

6.4 2-3 分钟展开回答

Diffusion Policy 的问题是每次推理要多步去噪。如果机器人控制频率是 10-30Hz,多步采样会成为瓶颈。加速可以从模型、采样和系统三层做。

采样层:DDIM 或 DPM-Solver(扩散概率模型求解器) 类方法减少采样步数,从几十步降到几步。优点是简单,缺点是步数太少可能动作质量下降。

模型层:Consistency model 把一个多步生成过程蒸馏成少步映射,让模型在不同噪声水平上输出一致结果。优点是推理快,缺点是蒸馏数据和 teacher(教师模型) 质量很关键。

训练目标层:Flow matching 直接学习从噪声到动作的速度场,推理时通过 ODE(Ordinary Differential Equation,常微分方程) 积分生成。它不等同于 DDIM,也不只是蒸馏,而是另一种生成建模目标。

系统层:即使生成模型本身不够快,也可以用 action chunk 和异步推理。机器人执行当前 chunk 时,后台生成下一段,降低等待时间。

6.5 常见追问

    • 少步采样导致动作不稳定怎么办?• 机器人实时控制是否必须一步生成?• 加速后怎么评估?

6.6 高分追问回答

实时控制不一定要求一步生成,因为策略频率和低层控制频率可以分开。比如策略 5-10Hz 输出 chunk,低层控制器 100-1000Hz 插补执行。加速后不能只看 inference time,还要看成功率、轨迹平滑、碰撞率、恢复能力和长任务完成率。

7. Q5:VLA 的动作头怎么选?离散 action token、diffusion 和 flow matching 怎么对比?

7.1 面试官问法

    • RT-2/OpenVLA 为什么把动作离散成 token?• Octo/Diffusion Policy/π0 为什么更强调连续 action chunk?• 如果换机器人平台,action head 要怎么适配?

7.2 考察点

这是近期 VLA 高频题。面试官想看你是否理解:VLM 语义能力和低层连续控制不是同一个问题,动作表示会直接影响控制精度、泛化和部署延迟。

7.3 30 秒回答

    • *VLA 的动作头本质是在回答“语言视觉表示怎么变成机器人可执行动作”。**RT-2/OpenVLA 这类路线把动作离散化成 token,优点是能复用 LLM 自回归训练范式,工程统一;缺点是连续控制精度受 binning/action schema 影响。Diffusion/Octo/π0 这类路线更强调连续 action chunk,能更自然建模多峰轨迹和平滑控制;其中 π0 用 flow matching action expert,把预训练 VLM 的语义表示接到连续动作生成上。

7.4 2-3 分钟展开回答

离散动作 token 的优点是统一。图像、语言和动作都可以进同一个 token 序列,训练目标类似 next-token prediction,所以能直接利用大模型工具链和预训练能力。缺点也明显:机器人动作本来是连续的,平移、旋转、夹爪、关节速度被离散化以后,精度和动作平滑性依赖 bin 数、动作归一化和控制频率。

连续动作头的优点是更贴近控制。Diffusion Policy、Octo 或 flow matching policy 通常输出未来一段 action chunk,而不是单个 token。这样可以建模时间相关性、多峰路径选择和轨迹平滑。π0 的代表性在于:VLM 负责理解图像和语言,flow matching action expert 负责生成连续动作轨迹。

如果换机器人平台,核心问题不是只改 prompt,而是 action schema 变了:末端位姿、关节空间、夹爪、双臂同步、移动底盘都有不同维度和归一化方式。实际项目中通常需要重新训练或微调 action head / adapter,并重新计算数据统计量;LoRA 只能帮助适配 backbone,不一定能解决动作空间不匹配。

7.5 高分追问回答

我会按任务选动作头:语义泛化强、动作频率不高、动作空间简单时,离散 token VLA 更容易搭建;高精度 manipulation、接触丰富、动作连续性要求高时,更倾向 diffusion/flow action chunk。工程上还要看推理频率:策略可以 5-10Hz 生成 chunk,低层控制器 100-1000Hz 跟踪插补,不要求大模型每个低层控制周期都推理一次。

8. Q6:DDQN 和 PPO 有什么区别?PPO 的优势函数怎么计算?

8.1 面试官问法

    • DDQN 和 PPO 的区别是什么?• PPO 的 advantage 怎么算?• 为什么机器人里 PPO 比 DQN 类方法更常见?

8.2 考察点

这是强化学习基础。机器人动作通常连续,所以面试官会看你是否知道 value-based 和 policy-based 的区别。

8.3 30 秒回答

DDQN(Double Deep Q-Network,双重深度 Q 网络) 是 value-based(基于价值) 方法,主要适合离散动作,通过估计 Q 值选动作;PPO 是 policy-gradient(策略梯度) 方法,直接优化策略,适合连续动作控制。PPO 的优势函数常用 GAE(Generalized Advantage Estimation,广义优势估计) 计算,近似衡量当前动作比 value baseline 好多少。机器人连续控制里 PPO、SAC、TD3 这类方法通常比 DQN/DDQN 更常见。

8.4 2-3 分钟展开回答

DDQN 解决的是 DQN 的过估计问题,用 online network 选动作、target network 估值。它适合离散动作,比如 Atari。机器人控制常见动作是连续的末端位姿、关节速度或 torque,直接离散化会维度爆炸,所以 DQN 系列不常作为低层控制首选

PPO 直接输出动作分布,比如高斯策略,然后用采样轨迹更新策略。Advantage 可以简单写成:

实践中常用 GAE:

GAE 用  平衡 bias(偏差) 和 variance(方差)。 越接近 1,方差更大但偏差更小;越接近 0,更依赖一步 TD(Temporal Difference,时序差分),方差小但偏差大。

8.5 高分追问回答

如果面试官问 PPO 为什么在机器人里仍然难,答案是:真机采样贵、探索危险、reward 设计难、reset 成本高。PPO 本身稳定,但不等于适合直接在真机从零训练。更常见路线是仿真 RL + sim-to-real,或者先用模仿学习初始化再做 RL fine-tuning。

9. Q7:VLA 输出动作抖动/跳变,从模型层面怎么约束?

9.1 面试官问法

    • 除了后处理滤波,怎么解决动作抖动?• policy 输出波动大,你会在 policy 层加滤波还是 loss 层加 penalty?• action drift 怎么防止?

9.2 考察点

这是模型和控制结合题。面试官不希望只听到“加低通滤波”。

9.3 30 秒回答

• *我会先定位抖动来源,再分层处理。**模型层可以用 action chunk、temporal smoothness loss(时间平滑损失)、速度/加速度/jerk penalty(加加速度惩罚)、trajectory diffusion/flow、temporal ensemble(时间集成)、一致性正则和不确定性过滤。

后处理滤波可以用,但它会引入滞后,所以不能作为唯一方案

9.4 2-3 分钟展开回答

动作抖动可能来自观测噪声、时间不同步、模型不确定性、训练数据抖动、动作表示不连续或低层控制器不匹配。不同来源处理方式不同。

模型层面有几种方法:

• 预测 action chunk,而不是单步动作,让模型学习短轨迹结构。

• 在 loss 中加入 、加速度或 jerk penalty。

• 用 diffusion/flow 生成整段轨迹,建模时间相关性。

• 对重叠 chunk 做 temporal ensemble,减少边界跳变。

• 加 consistency regularization,让相邻观测输出一致。

• 用 uncertainty(不确定性) 触发低速模式或 fallback(失败兜底策略)

滤波适合作为安全补丁,但会带来相位滞后。比如抓取接触瞬间,如果滤波过强,夹爪可能错过最佳闭合时机。因此高分回答要说**“先模型和数据,再工程滤波兜底”**。

10. Q8:PPO 为什么用 Clip 机制?它如何保证策略更新稳定?

10.1 面试官问法

    • PPO 中 clip objective 怎么写?• 为什么不用传统 KL 约束?• Clip 机制怎么避免策略崩?

10.2 考察点

PPO 是具身智能/RL 基础高频题。回答要讲 ratio、advantage、trust region 的近似。

10.3 30 秒回答

PPO(Proximal Policy Optimization,近端策略优化) 用新旧策略概率比  和 advantage(优势函数) 构造 clipped objective(截断目标函数)限制策略单次更新幅度。相比 TRPO(Trust Region Policy Optimization,信赖域策略优化) 的显式 KL 约束,clip 实现简单、无需二阶优化,对超参更鲁棒 。它 不是严格保证 KL 不超界,而是通过截断过大的概率比,降低策略更新过猛导致崩溃的风险。

10.4 2-3 分钟展开回答

PPO 的核心目标可以写成

其中 。如果 advantage 为正,说明这个动作比平均好,更新会提高它的概率;但如果提高太多,ratio(新旧策略概率比) 超过 ,clip 会限制收益。advantage 为负时,策略会降低该动作概率,但降低过多也会被限制。

PPO 的直觉是 trust region(信赖域,限制策略每次不要变化太大)。TRPO 用 KL 约束显式限制新旧策略差异,但实现复杂;PPO 用 clip 做一阶近似,工程上更简单

需要强调:clip 不是严格数学保证策略稳定。实践中仍要监控 KL(KL 散度)entropy(熵,衡量策略随机性)value loss(价值函数损失)clip fraction(被截断样本比例)、reward 曲线和梯度。如果 KL 突然飙升,说明策略更新仍然过大。

10.5 常见追问

    • PPO 训练崩了怎么 debug?• entropy bonus 有什么用?• PPO 在真机机器人上难在哪里?

10.6 高分追问回答

PPO 崩溃先看 KL、clip fraction、advantage scale、reward scale 和 value loss。如果 KL 大,降低学习率或 epoch;如果 entropy(熵) 掉太快,策略过早收敛;如果 value loss 爆炸,说明 critic 不稳。真机难点是采样贵、探索危险、reward 难设计、reset 成本高,所以常用仿真训练、离线数据初始化、safe RL 或只在高层策略上用 RL。

11. Q9:SAC/TD3 为什么在机器人连续控制里高频?和 PPO 怎么选?

11.1 面试官问法

    • PPO、SAC、TD3 分别适合什么机器人任务?• 为什么机器人连续控制常见 SAC/TD3?• off-policy 比 on-policy 的优势和风险是什么?

11.2 考察点

这是 RL 工程题。很多候选人只背 PPO,但机器人真机采样昂贵,面试官会看你是否理解 sample efficiency、critic 稳定性、探索安全和 replay buffer。

11.3 30 秒回答

    • *PPO 是 on-policy,稳定、实现成熟,但样本效率低;SAC/TD3 是 off-policy actor-critic,能复用 replay buffer,更适合样本昂贵的连续控制。**SAC 加最大熵目标,鼓励探索并提升稳定性;TD3 用双 critic、延迟策略更新和 target smoothing 缓解 Q 过估计。机器人里如果是仿真大规模并行训练,PPO 很常见;如果是真机样本贵或需要复用历史数据,SAC/TD3/离线 RL 更值得考虑。

11.4 2-3 分钟展开回答

PPO 的优点是更新受 clip 限制,工程上比较稳,适合仿真里并行采样大量 rollouts,比如 locomotion 或高层策略。但它每次更新依赖当前策略采样的数据,旧数据很快不能再用,所以真机效率不高。

SAC 是 off-policy maximum entropy 方法。它同时最大化 reward 和 entropy,让策略不要太早变确定,从而增强探索和鲁棒性。因为可以使用 replay buffer,采样效率通常比 PPO 更高。TD3 也是 off-policy,重点解决 actor-critic 中 Q 值过估计:用两个 critic 取较小值、延迟 actor 更新,并对 target action 加平滑噪声。

选择时看约束:

    • 仿真并行、reward 清楚、需要稳定 baseline:PPO。• 连续控制、样本贵、希望复用数据:SAC/TD3。• 数据主要来自示教或日志,不能在线探索:离线 RL 或 BC + conservative fine-tuning。• VLA 后训练:通常不直接从零 RL,而是先 imitation/VLA 初始化,再在仿真或安全约束下做少量 RL。

11.5 高分追问回答

off-policy 的风险是 distribution shift。critic 会在数据覆盖不足的动作上外推错误,导致 actor 利用错误 Q 值。解决方法包括保守 Q 学习、限制策略偏离行为策略、用示教数据 warm start、加安全约束和只在仿真中做大范围探索。真机上我不会让随机探索直接接管低层控制,而会把 RL 放在 residual、高层 subgoal 或受限 action space 里。

12. Q10:离线 RL/CQL/IQL/AWAC 在机器人里解决什么问题?

12.1 面试官问法

    • 只有历史示教数据,能不能用 RL 超过 BC?• offline RL 和 behavior cloning 的区别是什么?• CQL/IQL/AWAC 分别在防什么问题?

12.2 考察点

这是“从真实数据学习机器人策略”的高频方向。回答要抓住核心矛盾:离线 RL 想利用 reward 提升策略,但不能在线试错,所以最怕对数据外动作的 Q 值过度乐观。

12.3 30 秒回答

    • • *离线 RL 试图只用固定数据集学习比行为策略更好的策略。**BC 只模仿数据中出现的动作,不直接优化 reward;offline RL 会用 reward/return 学价值函数,但会遇到

distribution shift(分布偏移)

     和 Q 外推误差。CQL 倾向把数据外动作的 Q 压低,IQL 避免显式查询 OOD 动作,AWAC/AWR 用 advantage weighting 在不偏离数据太远的情况下强化好动作。

12.4 2-3 分钟展开回答

在机器人里,离线 RL 很有吸引力,因为真机探索贵且危险,而实验室往往已有大量 teleop、失败轨迹、仿真轨迹或历史日志。问题是:如果 actor 选了数据里没见过的动作,critic 没有真实反馈,只能外推;一旦 Q 被高估,策略就会朝不可执行动作跑。

几类方法的直觉:

    • CQL:保守估计 Q,宁愿低估数据外动作,避免 actor 利用虚高 Q。• IQL:通过 expectile value learning 和 advantage-weighted regression,尽量在数据分布内提升。• AWAC/AWR:仍然像加权 BC,给高 advantage 的动作更高权重,降低偏离行为策略的风险。

和 BC 的区别是:BC 不需要 reward,稳定但可能复制次优行为;离线 RL 需要 reward 或成功标签,有机会从混合质量数据中提取更优行为,但对数据覆盖、reward 质量和保守性很敏感。

12.5 高分追问回答

我会先问数据质量:如果数据几乎都是专家成功轨迹,BC/ACT/Diffusion Policy 往往够用;如果数据里有失败、次优和恢复片段,离线 RL 才更有价值。部署前必须做离线 policy evaluation、仿真回放、OOD 检测和安全约束,不能只看离线 Q 值。

13. Q11:GRPO 和 PPO 的区别是什么?机器人里能不能用?

13.1 面试官问法

    • GRPO 和 PPO 有什么区别?• 为什么 GRPO 可以不用 value model?• GRPO 适合 VLA 或机器人后训练吗?

13.2 考察点

这是大模型 RL 和机器人 RL 的交叉题。高分回答要避免把 LLM 的 GRPO 直接套到低层控制。

13.3 30 秒回答

PPO 通常用 critic/value model(价值模型) 估计 advantageGRPO(Group Relative Policy Optimization,组相对策略优化) 用同一 prompt 下多条 sampled outputs(采样输出) 的组内相对奖励来估计 advantage,可以省掉 value model。它适合 LLM 这种可对同一问题采多条回答并比较奖励的场景。机器人里可以借鉴“组内相对排序”做高层策略或轨迹候选选择,但不宜直接替代低层连续控制的稳定 RL 框架

13.4 2-3 分钟展开回答

PPO 的 advantage 通常来自 reward-to-go 减 value baseline。value model 的作用是降低方差,但也带来训练成本和误差。

GRPO 的思路是:对同一个输入采样一组输出,得到一组 reward,然后用组内均值和标准差归一化,构造相对 advantage。这样不需要单独训练 value model。这在 LLM reasoning(大语言模型推理任务) 中很自然,因为同一个数学题可以采多个答案,并用规则或 reward model(奖励模型) 打分。

机器人里使用要谨慎。低层连续控制的状态会被动作改变,采样多条轨迹代价很高,而且真机无法轻易 reset。GRPO 更适合:

    • • 高层任务规划候选排序。• 仿真中多轨迹采样和相对奖励优化。• VLA 输出多个 subgoal 或 action chunk 后做

reranking(重排序/候选轨迹再排序)

如果直接用于真机低层控制,要解决安全、采样成本、状态一致性和 reset 问题。

13.5 常见追问

    • GRPO 为什么在 LLM 中流行?• 它和 rejection sampling 有什么区别?• 如果用在 VLA 后训练,你会怎么设计?

13.6 高分追问回答

GRPO 在 LLM 中流行是因为它省 value model,适合按 prompt(提示词/任务输入) 采样多个候选并基于相对奖励优化。Rejection sampling(拒绝采样) 只筛选好样本再监督学习,不直接做策略梯度;GRPO 仍然更新策略概率。用于 VLA 后训练时,我会先在仿真或离线环境中生成多个候选 action chunk,用成功预测器、安全约束、轨迹平滑和任务 reward 打分,再谨慎更新高层或 action head。

14. Q12:RL 在 VLA 里怎么用?奖励函数怎么设计?

14.1 面试官问法

    • VLA 里为什么还需要 RL?• 奖励函数怎么设计?• 真机 RL 最大困难是什么?

14.2 考察点

这是工程 RL 题。回答要克制,不能说“用 RL 自动优化一切”。

14.3 30 秒回答

RL(Reinforcement Learning,强化学习) 在 VLA 中通常用于补足模仿学习:优化最终任务成功、恢复失败、提升策略鲁棒性或对齐人类偏好。奖励可以由任务成功、距离进度、接触状态、安全约束、动作平滑和时间惩罚组成。但真机 RL 难在采样成本、探索安全、reset(重置)、reward hacking(奖励黑客)和 sim-to-real gap(仿真到真机差距)

14.4 2-3 分钟展开回答

模仿学习只能学到数据里出现过的行为,遇到偏离专家轨迹的状态容易失败。RL 可以通过环境反馈优化任务目标,特别适合恢复、探索和精细策略改进。

奖励设计可以分层:

    • 稀疏成功奖励:抓起、放到目标区域、门打开。• dense shaping:到目标距离减少、姿态对齐、夹爪接近目标。• 安全惩罚:碰撞、越界、速度过大、力过大。• 平滑惩罚:动作变化、加速度、jerk。• 时间惩罚:鼓励快速完成,但不能导致鲁莽动作。

真机 RL 最大问题是探索会损坏硬件或环境,所以通常不从零开始。更合理路径是:先用 BC/ACT/DP 初始化,再在仿真中 RL,最后少量真机 residual fine-tuning 或 human-in-the-loop 后训练

14.5 常见追问

    • reward hacking 怎么避免?• RLHF 在机器人里怎么做?• risk-aware training 怎么讲?

14.6 高分追问回答

避免 reward hacking 要用多指标评估和安全约束,不能只优化一个代理 reward。RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习) 可以让人类比较轨迹好坏、标注成功/失败、提供偏好模型,然后用于 reranking 或策略更新。Risk-aware training(风险感知训练) 可以用 failure penalty(失败惩罚)CVaR(条件风险价值)constraint violation cost(约束违反代价) 或 safety critic(安全评价器),让策略关注低概率高损失事件。

15. 高频追问补充:风险训练、不确定性、控制稳定性和轨迹优化

这一节适合回答手术机器人或高风险 manipulation 场景。面试官关心的不是“模型平均成功率高不高”,而是失败代价高时你怎么训练、怎么估计不确定性、怎么限制动作、怎么证明或至少工程上保证控制稳定。

15.1 Surgical robotics policy failure cost 很高,怎么做 risk-aware training?

高风险任务不能只优化 average loss 或 average success rate。手术机器人里一次碰撞、过大拉力、误切组织、工具越界都可能是严重失败,所以要关注 tail risk。

常见做法:

constraint violation penalty(约束违反惩罚):碰撞、接触力过大、速度过大、关节/工作空间越界都加惩罚。

CVaR loss(条件风险价值损失):重点优化最差一部分样本的损失,而不是平均损失。

• failure trajectory reweighting:训练时提高失败边缘、危险接触和人工接管样本权重。

• safety critic / risk critic:学习状态-动作风险评分,推理时拒绝高风险动作。

• shielded policy:学习策略输出先经过规则安全层、CBF 或 MPC 检查。

• staged deployment:离线回放、仿真压力测试、影子模式、低速真机、人工监督逐级上线。

CVaR 的直觉是:如果只看平均表现,模型可能在 95% 简单样本上很好,但在 5% 高风险样本上失败;CVaR 让训练更关注这 5% 最坏尾部

15.2 Uncertainty 怎么量化?epistemic 和 aleatoric 怎么对比?

epistemic uncertainty(认知不确定性) 是模型因为 没见过类似数据而不确定。典型估计方法是 ensemble variance、MC dropout、不同 checkpoint 分歧、test-time augmentation 分歧。它通常可以通过补数据、微调或更好覆盖降低。

aleatoric uncertainty(偶然不确定性) 是 数据本身噪声或不可观测导致的不确定,例如遮挡、反光、组织变形、传感器噪声。它不能简单靠更多同类数据消除,需要多模态观测、触觉/力觉、保守控制或请求人工确认。

在 diffusion/flow policy 里可以用多次采样的 action variance、trajectory diversity、denoising residual、ensemble disagreement 来估计不确定性。部署时不确定性高不一定代表“模型错了”,但应该触发降速、重观测、选择保守轨迹或人工接管。

15.3 LQR 的 gain matrix 是 constant 吗?有没有 gain scheduling?

LQR(Linear Quadratic Regulator,线性二次调节器) 的标准形式是在某个线性系统或局部线性化点上求 constant gain matrix:

如果系统工作点变化不大,constant gain 可以够用;但机器人任务有不同阶段、接触状态和非线性动力学,constant gain 往往不够。

gain scheduling(增益调度) 是根据状态或任务阶段切换/插值不同的 。调度指标可以包括末端误差、速度/加速度、接触力、关节构型、任务阶段、不确定性或风险评分。回答时要强调:gain scheduling 不是随便调参,而是基于工作点、线性化模型或经验验证,让不同阶段的跟踪刚度、阻尼和响应速度更合适。

15.4 控制系统稳定性怎么保证?有没有 Lyapunov 证明?

纯 neural policy 很难给出完整形式化稳定性证明。高分回答应该诚实区分:学习策略本身、低层控制器、安全过滤器分别能保证什么。

常见工程架构是:高层 VLA/diffusion policy 输出参考位姿或短轨迹;低层 PID/LQR/MPC/impedance controller 负责跟踪;安全层负责限速、限幅、碰撞检测和中断。这样可以对低层跟踪误差做稳定性分析,而不是直接证明一个端到端大模型稳定。

如果要讲 Lyapunov,可以说:对于低层误差动力学,可选  作为候选 Lyapunov 函数,证明在合适增益和有界扰动下  或误差最终有界。对于学习策略,可通过 bounded action、rate limit、control barrier function、MPC safety filter 和 empirical stress test 降低风险。

如果项目没做形式化证明,应回答:

我没有声称端到端 neural policy 有完整 Lyapunov 证明。我们把稳定性责任放在低层控制和安全过滤器上,学习模型只输出有界参考轨迹,并通过限速、工作空间约束、force threshold 和人工接管保证部署安全。

15.5 Policy 输出波动大,加滤波器还是 loss penalty?

首先纠正概念:平滑动作通常不是加高通滤波器,而是低通滤波、moving average、rate limiter 或训练时 smoothness penalty。高通滤波会保留高频变化,可能放大抖动。

两种路线的取舍:

    • 部署后处理:低通滤波或 rate limiter 简单有效,但会引入相位延迟,接触任务可能错过关键时机。• 训练约束:在 loss 中加入 velocity、acceleration、jerk 或 action delta penalty,让模型本身学平滑动作,更根本。

更好的工程答案是二者结合:训练时加入 temporal smoothness / consistency loss,部署时只做轻量限速和安全滤波,避免过度滤波影响控制响应。

16. Q13:LoRA 原理是什么?为什么 VLA 微调也会问 LoRA?

16.1 面试官问法

    • LoRA 的原理是什么?• 为什么微调大模型不直接全量更新?• LoRA 用在 VLA 里适合调哪些部分?

16.2 考察点

这是大模型微调基础。VLA 面试里问 LoRA,通常是因为 OpenVLA、VLM backbone 或语言模型部分参数很大,全量微调成本高。

16.3 30 秒回答

LoRA(Low-Rank Adaptation,低秩适配) 的核心是低秩增量更新。原本要更新一个大权重矩阵 ,LoRA 冻结 ,只学习一个低秩增量 ,其中  和  很小。这样能用少量参数适配新任务,降低显存和训练成本。VLA 里常用于语言模型、视觉语言投影层或 action head 的轻量微调。

16.4 2-3 分钟展开回答

假设原始线性层是 。全量微调会直接更新 ,成本很高。LoRA 改成:

其中  冻结, 和  是低秩矩阵,rank 通常远小于原始维度。这样训练参数少,显存占用低,也更不容易破坏预训练知识。

在 VLA 里,LoRA 适合用在三个位置:

    • VLM/LLM backbone:适配语言指令和机器人任务。• 视觉语言投影层:对齐图像 token 和语言 token。• action 相关模块:如果动作空间变化不大,可以轻量适配。

但如果机器人 action schema 完全变了,只加 LoRA 不一定够,可能需要重新训练 action head 或 adapter

16.5 常见追问

    • LoRA rank 怎么选?• LoRA 和 adapter 有什么区别?• LoRA 会不会影响推理速度?

16.6 高分追问回答

rank(低秩矩阵的秩) 越大表达力越强,但参数和过拟合风险也更高。LoRA 是加低秩增量,adapter(适配器 通常是插入小网络模块。LoRA 可以在推理前 merge(合并) 到原权重里,所以推理开销可以很小。机器人里要特别注意:LoRA 解决的是模型适配,不解决动作空间不匹配。

17. Q14:Batch Size 增大,学习率怎么变?

17.1 面试官问法

    • batch size 变大,learning rate 应该怎么调?• 线性缩放规则是什么?• 大 batch 训练有什么风险?

17.2 考察点

这是训练基础题。回答要讲清楚“梯度噪声”和“稳定性”,不要只背线性缩放。

17.3 30 秒回答

经验上 batch size 增大时,可以按线性缩放规则增大学习率,例如 batch 翻倍,学习率也近似翻倍,但通常要配合 warmup。原因是大 batch 的梯度估计噪声更小,可以承受更大步长。风险是泛化可能变差、学习率过大会不稳定,所以要看 loss、梯度范数和验证成功率。

17.4 2-3 分钟展开回答

小 batch 梯度噪声大,但有时有正则化效果;大 batch 梯度更稳定,训练吞吐更高,但可能收敛到泛化较差的解。线性 scaling rule 是一个经验法则,不是定理

机器人策略训练里还要注意:loss 降低不一定等于真机成功率提高。如果 batch 变大后,模型输出更平滑但泛化变差,需要看任务成功率、OOD 场景和动作分布,而不是只看训练 loss。

17.5 高分追问回答

我会先用线性缩放作为起点,再加 warmup(学习率预热) 和梯度裁剪。如果出现 loss spike(损失突然尖峰) 或动作不稳定,先降学习率;如果训练很慢但稳定,可以逐步增大。对于 VLA 微调,宁愿保守一点,因为过大的学习率可能破坏预训练视觉语言能力。

18. Q15:注意力机制复杂度是多少?多头注意力怎么手撕?

18.1 面试官问法

    • self-attention 的计算复杂度是多少?• 多头注意力为什么要分多个 head?• 用 PyTorch 写一个简化版 multi-head attention。

18.2 考察点

这是 VLM/VLA 基础。面试官想看你是否理解 token 数对推理延迟的影响。机器人里多相机、多帧历史会让 token 数变大,attention 的二次复杂度就会成为瓶颈。

18.3 30 秒回答

标准 self-attention 对序列长度、隐藏维度  的复杂度大约是 ,瓶颈来自  的  注意力矩阵。多头注意力把特征分成多个子空间,让不同 head 学不同关系,比如空间关系、时间关系、语义关系。VLA 里要控制图像 token、历史帧和多视角 token 数,否则延迟会爆

18.4 简化版 PyTorch 代码

import torch
import torch.nn as nn
import torch.nn.functional as F

class MultiHeadSelfAttention(nn.Module):
    def __init__(self, dim: int, num_heads: int):
        super().__init__()
        assert dim % num_heads == 0
        self.num_heads = num_heads
        self.head_dim = dim // num_heads
        self.qkv = nn.Linear(dim, dim * 3)
        self.out = nn.Linear(dim, dim)

    def forward(self, x):
        # x: [B, N, D]
        b, n, d = x.shape
        qkv = self.qkv(x).view(b, n, 3, self.num_heads, self.head_dim)
        qkv = qkv.permute(2, 0, 3, 1, 4)
        q, k, v = qkv[0], qkv[1], qkv[2]  # [B, H, N, Dh]
        scores = (q @ k.transpose(-2, -1)) / (self.head_dim ** 0.5)
        attn = F.softmax(scores, dim=-1)
        y = attn @ v  # [B, H, N, Dh]
        y = y.transpose(1, 2).contiguous().view(b, n, d)
        return self.out(y)

18.5 高分追问回答

机器人里 attention 复杂度不是抽象问题。多视角图像、历史帧、语言 token、状态 token 全部拼起来后,n 会很大。优化手段包括减少图像 token、使用 pooling、只保留关键帧、分层 attention、cross-attention 替代全量 self-attention、KV cache 和异步推理。

相关推荐