具身智能TL常用算法面经：数据训练、SFT 与 Sim-to-Real 闭环(三)

转载自公众号：敢敢AUTOHUB

博客导读

这篇是整个系列里最像“真做过项目”的部分。面试官一旦问到数据，就不是看你会不会报名字，而是看你是否知道机器人数据的真实成本、标注方式、采集方式、清洗方式和闭环方式。

建议按下面顺序看：

1. 先理解数据飞轮。2. 再看遥操作、SFT、Sim-to-Real 和 benchmark。3. 最后看长序列任务、人类视频、失败回流和在线自适应。

如果你做的是机器人项目，这篇比第二篇更重要。

1. Q1：具身智能最大瓶颈是数据不够，你怎么解决？

1.1 面试官问法

开源

1.2 考察点

这是高频必问题。面试官想看你是否知道机器人数据贵、慢、异构、难对齐，以及你是否会做数据策略而不是只说“多采数据”。

1.3 30 秒回答

我会用多源数据组合解决：真实 teleoperation data（遥操作数据） 保证目标任务分布，仿真和合成数据覆盖长尾和危险场景，开源数据提供通用视觉/动作先验，人类视频提供语义和动作阶段信息。训练上先用大规模异构数据预训练，再用本机器人高质量数据 SFT（监督微调），最后通过真机失败回流做定向补采。

1.4 2-3 分钟展开回答

真实机器人数据稀缺的原因有四个：采集慢、硬件成本高、失败有风险、不同机器人数据格式不统一。因此解决方案不能只靠扩大采集量，而要提高数据效率。

第一，任务内高质量遥操作数据是基本盘。它必须覆盖目标物位置、光照、背景、起始姿态、干扰物、不同速度和失败恢复。少量高质量、分布覆盖好的数据，往往比大量重复 demo 更有效。

第二，用仿真补长尾。仿真适合生成物体随机化、光照随机化、初始状态随机化和危险场景，但不能指望仿真完全替代真机。仿真数据更适合预训练、策略初始化和失败模式覆盖。

第三，用开源数据做通用先验。Open X-Embodiment、DROID、BridgeData、LeRobot 社区数据这类资源可以提升视觉语义和操作先验，但必须处理 embodiment、相机视角、动作空间和任务标注差异。

第四，人类视频可以提供语义和阶段信息，但不能直接当机器人动作监督。它更适合做 affordance（可供性）、subgoal（子目标）、video pretraining（视频预训练）、reward learning（奖励学习） 或动作阶段分解。

最终要形成闭环：先训练 baseline（基线方法），上真机评测，统计失败模式，再针对性补数据。比如失败集中在“杯子靠边缘”或“透明杯”上，就不要随机采新数据，而要定向补这些场景。

1.5 常见追问

• 如果只能采 100 条 demo，你怎么最大化效果？• 失败轨迹要不要保留？• 开源数据和本机数据冲突怎么办？

1.6 高分追问回答

100 条 demo（示教轨迹） 时我会严格控制任务范围，保证覆盖关键状态，而不是平均分布乱采。每条 demo 要有完整时间同步、语言标注和成功标记。失败轨迹不一定丢，失败前的有效片段可以保留，失败动作可以用于训练 critic（评价器/价值评估模型）、终止检测或安全分类器。开源数据和本机数据冲突时，本机动作 schema 优先；开源数据可用于视觉/语言预训练或低权重混合。

1.7 进一步补充

如果面试官继续追“数据不够怎么办”，可以把方案分成三层：短期做更高质量的遥操作和清洗；中期加仿真和开源数据补长尾；长期建失败回流闭环，让系统自己告诉你下一轮应该采什么。这个回答比“多采数据”更可信。

2. Q2：遥操作数据采集系统怎么搭？数据质量和量怎么平衡？

2.1 面试官问法

数据采集

2.2 考察点

这是判断你是否真接触过机器人数据的关键题。回答要具体到时间戳、频率、同步、状态、动作和元信息。

2.3 30 秒回答

遥操作系统至少要记录多视角图像、机器人状态、动作命令、语言任务、时间戳、episode id（轨迹编号）、成功标记和异常信息。核心是保证时间同步和动作语义一致。质量上优先覆盖任务分布和关键失败模式，采完后做轨迹可视化、动作范围检查、延迟检查、成功率统计，再决定是否继续扩量。

2.4 2-3 分钟展开回答

一个靠谱的数采系统要关注三层，面试时要突出数据字段、同步机制和质量验收标准。

第一是硬件和控制。常见遥操作方式包括主从机械臂、VR 手柄、3D mouse、键盘/手柄、示教拖动和人形数据服。选择取决于任务精度和成本。精细 manipulation 更适合主从或示教；移动操作可以用手柄和高层 skill。

第二是数据记录。每个 episode（一次完整任务轨迹） 需要保存：

• 多相机 RGB/RGB-D、相机内外参、帧时间戳。

• 机器人 joint state（关节状态）、EEF pose（末端执行器位姿）、gripper state（夹爪状态）、力/触觉如果有也保存。

• 控制命令，包括 action、控制模式、频率、限幅结果。• 语言指令、任务 id、物体信息、场景随机化参数。

• 成功/失败、失败原因、人工备注。

第三是质量控制。要检查时间戳是否对齐、相机是否掉帧、动作是否超范围、demo 是否过慢或抖动、成功标准是否一致。不要只看采集条数，要看状态覆盖率和失败模式覆盖率。

2.5 常见追问

• 遥操作数据很抖，训练会不会学到抖动？• 如何处理不同操作者风格？• subtask 时间段怎么标注？

2.6 高分追问回答

2.6.1 遥操作抖动与噪声处理：在丝滑与迟滞间寻找平衡

遥操作（Teleoperation）数据，特别是基于人类视觉反馈、低成本主手（Leader）或 VR 控制器的采集，由于人类手部微震、传感器噪声、通信延迟等原因，动作信号往往非常抖动（Noisy and Jittery）。

核心风险：如果模型全盘接收这些数据，它会学习这些高频抖动动作作为“专家策略”，导致执行时电机不必要的发热、损耗，严重时甚至导致控制系统失稳。

以下是针对抖动的全链路工程设计：

采集端源头管理：限速与死区（Limits & Deadbands）

物理层死区（Deadbands）：人类手部有自然的微小震动。在软件层面设置一个极小的阈值。当主手运动幅度小于此阈值时，将其视为“无动作”，不发送给机器人。这能过滤掉纯粹的噪声。•

动作限速（Velocity Limits）：在遥操作软件中对机器人的速度和加速度设置软上限。即使操作者猛烈挥手，机器人也会以预设的平滑曲线执行动作，从源头保证采集到的 Joint States 是平滑的。

后处理平滑：时域滤波（Smoothing）

低通滤波（Low-pass Filtering / Moving Average）：对采集到的轨迹应用指数平滑（Exponential Smoothing）或移动平均滤波。这种方法简单高效，能去除高频噪声。•

核心权衡（The Contact Dilemma）：过度滤波是致命的。滤波会引入相位滞后（Latency）。在需要高频精细反馈的任务中（如插拔线缆、接触桌面的瞬间），如果滤波太重，模型可能学不到精确的“接触瞬间”信号，导致撞击或操作失败。工程上通常在不同阶段应用不同权重的滤波。

数据清洗：异常剔除与重采样

动作重采样（Resampling）：遥操作数据的采样频率可能不稳定（e.g., 20Hz-30Hz波动）。在写入 Episode 前，必须将其统一重采样至恒定的控制频率（e.g., 固定 20Hz），保证时序信息的一致性。

速度校验与剔除：自动计算动作序列的速度梯度。如果某两帧之间的 Joint Position 突变超过物理可能或预设阈值，则将该片段标记为异常数据并予以剔除，防止损坏策略学习。

模型层：时间平滑约束（Temporal Smoothness Loss）

损失函数优化：不仅让模型预测的动作与专家演示一致（MSE），还可以显式地加上一个针对相邻两帧预测动作差异的 Consistency Loss（一致性损失） 或 Smoothness Loss。

作用：它惩罚模型预测的突变动作，迫使模型预测出一条随时间平滑演进的轨迹，从而在算法内部抑制抖动。

2.6.2 不同操作者风格：将多峰问题转化为可控生成问题

不同的人操作机器人完成同一个任务，其风格（Style）会有显著差异：有的操作果断迅速，有的则谨慎缓慢；有的喜欢大角度绕行，有的喜欢直线逼近。

核心挑战（多峰分布）：在同一个视觉场景下，数据里出现了两种不同的合理动作流。简单的回归模型（如 RT-1）会将这两种风格进行“平均化”，导致模型在执行时输出一个两边都不靠、物理上不可行的动作。

解决思路是从“全盘模仿”转向“条件化生成”：

1. 条件 CVAE 潜变量（CVAE Latent as Condition）

ACT 模型核心：ACT（Action Chunking with Transformers）模型巧妙地使用条件 VAE（CVAE）来解决此问题。•

原理：在训练阶段，模型接收视觉特征的同时，也接收完整的专家动作轨迹（Expert Trajectory），并将该轨迹压缩进一个低维的潜空间（Latent Space）。这个潜空间中的每个位置都编码了不同的专家风格或解法（e.g., 代表速度快的操作风格）。

推理时：模型只需根据图像推理，并显式地提供一个潜变量作为“风格指令”（例如设定为训练集的均值，或手动采样一个），让策略根据当前的视觉场景和指定的风格来生成一致的动作。

2. 质量评分与数据加权

工程做法：人工或自动（基于成功率、操作时间）对采集到的 Episodes 进行质量评分。在训练时，对于高质量（e.g., 丝滑、迅速）的 Episode 赋予更高的权重（Higher Sample Weight / Larger Gradient Step），引导模型更多地模仿优秀的操作风格，自然淘汰效率低的风格。

2.6.3 Subtask 时间段标注：状态驱动与规则结合

一个长程（Long-horizon）任务，如“抓取杯子并放到微波炉”，必须被拆解为多个原子子任务（Subtasks）来降低策略学习难度。手动标注每个子任务的起始帧和结束帧极其耗时且一致性差。

工程上通常采用关键状态事件（State Events）驱动的方法来进行自动化或半自动化标注：

定义物理状态边界

子任务的切换往往伴随着机器人或物体物理状态的剧烈改变。通过监测关键传感器和状态变量的“逻辑状态”（Boolean），可以确定边界候选：

原子操作名称	关键触发事件（Events）	时序边界确定
移动至物体 (Approach)	夹爪闭合逻辑：F -> T	结束点：夹爪逻辑跳变前一帧
抓取 (Grasp)	夹爪闭合逻辑 & 电机力矩突变	起始点： Approach 结束；结束点： Gripper State 稳定
抬起 (Lift)	物体高度信号 (RGB-D 或 Pose) & EEF Z轴变化	结束点：物体高于桌面的逻辑标志置 T
放置至目标 (Transport)	EEF 到达目标区	结束点： EEF Position
释放 (Release)	夹爪闭合逻辑：T -> F	结束点：夹爪完全打开

人工规则与启发式辅助

夹爪稳定判定：夹爪闭合命令发出后，电机需要约 0.5s 才能完全稳定接触。工程上通常在夹爪逻辑信号（Boolean）变真后，向后顺延预设的稳定时间（e.g., 10帧），作为抓取原子动作的真正结束点。•

速度梯度检测：在 Transport 任务中，机器人快要到达目标点时，通常会有明显的减速动作。通过监测 EEF 的线性速度梯度，可以找到任务快完成时的“减速窗”，辅助确定更精确的任务分界。

2.7 进一步补充

采集系统最容易犯的错通常不是“数据少”，而是时间戳没对齐、动作定义和控制频率不统一、成功/失败标准不一致。这三个问题会直接污染训练信号，后面再换模型也救不回来。

3. Q3：预训练、SFT、任务微调在 VLA 中分别是什么？

3.1 面试官问法

大模型

3.2 考察点

面试官想看你是否能把大模型训练范式迁移到机器人，但又不照搬 LLM 术语。

3.3 30 秒回答

VLA 预训练通常用大规模、多任务、多机器人数据学通用视觉语言动作先验；SFT 用目标机器人和目标任务的高质量演示对齐具体 action schema（动作格式/动作规范）；任务微调则针对某个场景或技能做最后适配。数据少时优先冻结视觉/语言 backbone（主干网络），只训 adapter（适配器） 或 action head（动作头）；数据足够且分布差异大时再考虑更大范围微调。

3.4 2-3 分钟展开回答

预训练解决 “通用性”。它可以用 Open X-Embodiment、DROID、BridgeData、LeRobot 社区数据、仿真数据等，目标是让模型学到物体、动作、语言和跨任务先验。但这些数据通常异构严重，所以要统一 观察格式、动作单位、频率、归一化和语言模板。

SFT 解决 “本机可用”。即使用了通用 VLA，迁移到自己的机械臂也需要用本机数据微调，因为相机位置、夹爪、动作维度、控制模式和任务分布都不同。

任务微调解决“具体成功率”。比如让模型专门学某条产线、某类杯子或某个家庭桌面环境。这里更重质量和覆盖，不一定需要非常大数据。

微调策略取决于数据量：

• 少量数据：冻结大部分 backbone（主干网络），训练 action head（动作头）、LoRA（低秩适配）、adapter（适配器）。

• 中等数据：解冻视觉投影层、action head 和部分融合层。

• 大量多任务数据：可以全量微调或继续预训练。

面试中不要随口报模型参数和数据量。如果没有真实数字，可以说“我会按参数量、任务复杂度和过拟合情况做 scaling，而不是固定比例”。

3.5 进一步补充

如果被追问“什么时候只训 action head，什么时候全量微调”，可以这样答：数据很少、只换机器人硬件时，先冻结 backbone；数据中等、场景变化大时，解冻视觉和融合层；数据足够且任务分布差异很大时，再考虑更大范围微调。这样比直接说“看情况”更像真做过项目。

4. Q4：Sim-to-Real 会遇到哪些坑？怎么解决？

4.1 面试官问法

• 你做过 Sim-to-Real 吗？最大坑是什么？• Domain randomization 怎么设计？• 如何结合系统辨识设计更高效的 DR 分布？

4.2 考察点

这是机器人基础能力题。回答要覆盖视觉域差异、动力学差异、接触、延迟和控制接口。

4.3 30 秒回答

Sim-to-Real（仿真到真机迁移） 的主要 gap（差距） 包括视觉外观、相机标定、动力学参数、接触摩擦、执行器延迟和控制器差异。 解决上先做 System Identification / SysID（系统辨识），把质量、摩擦、阻尼、延迟、控制增益等参数估到合理范围，再做 Domain Randomization / DR（域随机化） 覆盖不确定性；同时用少量真机数据做 residual adaptation（残差适配） 或 policy fine-tune（策略微调）。

4.4 2-3 分钟展开回答

Sim-to-Real 失败通常不是一个原因，而是多个 gap 叠加。

视觉 gap 包括光照、材质、反射、纹理、相机噪声、镜头畸变。解决方式是视觉随机化、真实图像增强、synthetic-to-real style transfer（合成到真实的风格迁移）、预训练视觉 encoder（编码器） 和多视角冗余。

动力学 gap 包括质量、惯量、关节摩擦、阻尼、夹爪力、执行器延迟。解决方式是系统辨识和参数随机化。系统辨识可以先在真机执行标准动作，拟合延迟、摩擦和控制响应，再把随机化范围设在真实可信区间内。

接触 gap 最难。 抓取、插入、滑动、柔性物体都对摩擦和微小几何误差敏感。这里不能只靠随机化，通常需要真机微调、力/触觉反馈、低层阻抗控制和更保守的安全策略。

如果算力有限，我会优先随机化三个参数：视觉外观/光照、物体初始位姿、执行延迟或摩擦。具体选哪三个取决于失败模式。如果真机主要抖动，优先查延迟和控制增益；如果抓不准，优先查相机标定和物体位姿分布。

4.5 常见追问

• 如何快速定位抖动源于观测延迟、动力学失配还是策略本身？• Domain randomization 是不是越大越好？• 在线自适应怎么做才不破坏稳定性？

4.6 高分追问回答

定位抖动要做 ablation（消融实验）：固定观测 replay（回放） 看 policy 输出是否抖；把 policy 输出换成平滑轨迹看机器人是否抖；人为加延迟看抖动是否复现；检查控制器 tracking error（跟踪误差） 和动作频谱。DR 不是越大越好，过宽会让训练变难、策略保守。在线自适应应限制权责，比如只估计小维度残差、延迟或增益，不直接改主策略输出，并加安全边界和回滚机制。

5. Q5：人类操作视频能不能拿来训练 VLA？

5.1 面试官问法

• 人手视频能不能训练机器人？• 2D 视频到 3D 机器人动作怎么对齐？• Being-H0 这类方向解决什么问题？

5.2 考察点

这是前沿数据题。面试官看你是否知道人类视频有价值，但不能直接替代机器人动作标签。

5.3 30 秒回答

人类视频可以用，但通常不能直接作为低层动作监督。它更适合提供物体 affordance（可供性）、任务阶段、目标状态、语言语义和 subgoal（子目标）。要变成机器人训练数据，需要解决人手到机器人夹爪的 embodiment gap（具身形态差异）、2D 到 3D 位姿恢复、相机尺度、接触状态和动作可执行性。

5.4 2-3 分钟展开回答

人类视频的价值在于规模大、任务自然、物体多样。比如网络视频里有大量“打开抽屉”“倒水”“擦桌子”的示例，能教模型理解任务阶段和物体功能。

但难点也很大。首先，人手和机器人夹爪结构不同。人可以用五指灵巧操作，二指夹爪未必能复现。其次，视频通常没有精确 3D 位姿、力、机器人状态和控制命令。再次，视频视角、尺度和遮挡都不稳定。

可行用法包括：

• 训练视觉表征和 affordance：哪里可抓、哪里可推、哪里可打开。

• 学 subgoal：先接近杯子，再抓取，再移动到目标区域。

• 学 reward（奖励信号） 或 success classifier（成功判别器）：判断任务是否完成。

• 用 pose estimation 或 hand-object reconstruction 生成粗动作，再通过机器人约束过滤。

面试里要强调：人类视频更适合作为高层语义和阶段监督，低层控制仍需要机器人数据校准。

5.5 进一步补充

如果面试官问“人类视频是不是完全不能用”，不要回答得太绝对。更稳的说法是：能用，但用途更偏高层语义、阶段划分和 affordance 学习；真正的低层动作还得靠机器人数据对齐。

6. Q6：常见开源数据集和 benchmark 怎么选？

6.1 面试官问法

• VLA 常用 benchmark 有哪些？• Open X-Embodiment、DROID、LIBERO、ManiSkill 各适合什么？• 你怎么做 baseline 对比？

6.2 考察点

这是实验设计题。回答要把数据集用途说清楚，而不是罗列名字。

6.3 30 秒回答

Open X-Embodiment/RT-X 适合跨机器人、多任务预训练；DROID 适合真实世界多场景操作数据；BridgeData 适合真实桌面操作和语言条件数据；LIBERO 适合语言条件、长序列和 lifelong learning 仿真评测；Meta-World/ManiSkill 适合仿真多任务和 RL/IL 对比；RoboCasa 更偏家居长任务仿真。

6.4 2-3 分钟展开回答

如果目标是通用 VLA 预训练，优先考虑 Open X-Embodiment、DROID、BridgeData 和 LeRobot 社区数据，因为它们包含真实机器人操作和多任务分布。

如果目标是算法消融，LIBERO、Meta-World、ManiSkill 更适合，因为可复现、任务多、成本低。LIBERO 对语言和长时序比较友好；Meta-World 适合多任务 manipulation；ManiSkill 适合仿真控制、RL 和大规模并行。

如果目标是家居场景和任务组合，RoboCasa 这类 benchmark 更贴近家庭操作，但仍然要注意 sim-to-real gap。

baseline 选择要与问题匹配。如果改 action model（动作模型），就对比 BC、ACT、Diffusion Policy、RDT/VLA；如果改数据策略，就固定模型比较数据混合、标注和采样；如果改部署，就比较延迟、成功率和吞吐。

7. Q7：长序列任务为什么成功率低？数据上怎么处理？

7.1 面试官问法

• 长 horizon 任务为什么难？• subtask 怎么标注？• 数据里怎么处理失败和恢复？

7.2 考察点

这是数据和模型交叉题。高分回答要讲误差累积、状态分布偏移和子任务结构。

7.3 30 秒回答

长序列任务难在误差累积、状态分布偏移、语言目标漂移和数据稀疏。数据上我会把任务拆成 subtask（子任务），标注开始/结束事件和成功条件；训练上用 action chunk（动作块）、hierarchical policy（分层策略）、subgoal prediction（子目标预测）、失败恢复数据和 DAgger（Dataset Aggregation，数据聚合式模仿学习） / 失败回流减少分布偏移。

7.4 2-3 分钟展开回答

长任务失败率低有几个原因。

第一，horizon 越长，单步小误差越容易累积。抓取偏一点，后面放置就全错。

第二，训练数据覆盖不了执行中的所有偏离状态。模仿学习只看专家轨迹，一旦机器人偏出专家分布，就不知道如何恢复。

第三，语言目标可能太抽象，比如“整理桌子”包含多个隐式步骤，端到端策略很难一次学完。

数据处理上，我会做 subtask 标注。边界可以来自事件：接近目标、夹爪闭合、物体离桌、到达容器、释放、任务验证。每个 subtask 可以单独训练 skill，也可以作为高层规划标签。

失败数据不要简单丢弃。失败前的正常段可以用于训练，失败状态可以用于安全/终止检测，人工恢复轨迹可以用于 recovery policy（恢复策略）。真机部署后最有价值的是失败回流，因为它覆盖了模型真实会遇到的分布偏移。

7.5 进一步补充

长序列任务的关键不是“多训练一点”，而是要把它拆成可以学习和恢复的单元。面试里可以主动提 subtask boundary（子任务边界）、recovery policy、failure replay（失败回放） 和 hierarchical policy。这几个词能说明你理解了长 horizon（时域长度） 任务的根本难点。

8. Q8：如果要采集“叠衣服/整理衣物”数据，数采方案怎么设计？

8.1 面试官问法

• 如果让你从 0 到 1 采集叠衣服数据，你会怎么设计？

• 叠衣服属于柔性物体操作，它和抓杯子、插积木有什么不同？

• 单臂能不能做？为什么很多方案会用双臂？

• 布料没有刚体位姿，成功标准怎么定义？

8.2 考察点

这类问题考察的是你是否理解 deformable object manipulation（可变形物体操作）。衣服、毛巾、布料不是刚体，状态维度高、遮挡多、接触复杂、摩擦不稳定、同一个目标状态可以有很多合理路径。面试官不是想听“多采数据”，而是想听你能否把任务拆成可采、可标、可训、可验收的工程闭环。

8.3 30 秒回答

叠衣服数据不能按普通 pick-and-place（抓取放置）来采。 我会先把任务拆成“摊平、找角点、抓取、拉展、第一次折叠、第二次折叠、整理边缘、验收”这些 subtask（子任务），再用双臂遥操作采集多视角 RGB/腕部相机、机器人状态、动作、夹爪状态、语言指令、成功标记和失败原因。评价上不用单一成功率，而是结合阶段得分、最终折叠质量、边缘对齐误差、是否有严重褶皱、完成时间和恢复能力。

8.4 2-3 分钟展开回答

叠衣服的核心难点是：衣服没有稳定的 6D pose（六自由度位姿）。杯子可以估计位置和朝向，但 T 恤会卷曲、遮挡、折叠、滑动，局部状态变化会影响后续动作。因此我会按“任务定义、硬件配置、数据字段、标注体系、验收标准、失败回流”来设计。

第一，先定义任务层级。不要一上来就采“把任意乱衣服叠好”。可以分三档：

Level 1（一级任务）：衣服已经摊平，只需要按固定步骤折叠。

Level 2（二级任务）：衣服轻微凌乱，需要先拉平再折叠。

Level 3（三级任务）：衣服随机团在桌面上，需要展开、识别正反面、整理方向、再折叠。

这个分级很重要，因为如果一开始把所有难度混在一起，模型会同时学展开、找角、抓取、折叠和整理，监督信号会非常稀疏。Hugging Face LeRobot 的公开衣物折叠案例也采用了类似从 laid-out shirt 到 messy shirt 的分层思路，并强调先固定评估协议再迭代数据。

第二，硬件上优先用双臂。叠衣服天然需要一只手固定、一只手拉展，或者两只手同时抓住两个角点。单臂也能做，但通常要借助桌边、夹具、固定板或预定义 primitive（动作原语），任务范围会受限。双臂的优点是动作更接近人类示教，缺点是动作维度更高、同步更难、数据质量更依赖操作者。

第三，相机布局要服务于布料状态观察。一个可落地配置是：

base camera（基座相机/全局相机）：俯视或斜俯视桌面，负责看全局衣服形状。

wrist camera（腕部相机）：装在左右夹爪附近，负责看抓点、边缘、滑移和接触细节。

可选 RGB-D 或深度相机：用于估计布料高度、褶皱和遮挡，但要注意深度对黑色/反光/薄布料可能不稳定。

第四，数据字段要比普通抓取更细。除了图像、joint state、EEF pose、action、gripper state、timestamp，还建议记录：

cloth keypoints（布料关键点）：衣领、袖口、下摆角点、左右肩点等，哪怕只做少量标注也有助于分析。•

segmentation mask（分割掩码）：衣服区域、桌面区域、夹爪区域，用于评估遮挡和最终形状。•

subtask label（子任务标签）：摊平、抓左袖、抓右袖、向内折、向下折、整理边缘等。•

failure reason（失败原因）：抓空、抓错角点、布料滑脱、折线偏移、夹爪压住布料、双臂互相干涉。

第五，成功标准要可执行。**只用“人工看起来叠好了”不够，因为训练迭代时无法稳定比较。**可以组合几个指标：

success rate（成功率）：最终是否达到可接受折叠状态。•

stage score（阶段得分）：每完成一个 fold/subtask 给分，避免只有 0/1 信号。•

template matching（模板匹配）：最终衣服轮廓和目标模板的 IoU 或关键点距离。•

edge alignment（边缘对齐）：衣服左右边缘、袖口、下摆的对齐误差。•

wrinkle score（褶皱评分）：可用人工 1-5 分，也可用图像纹理/深度粗略估计。•

completion time（完成时间）：只对成功 rollout 统计，避免模型为了快而牺牲质量。

第六，数据采集策略要先统一动作风格。叠衣服是典型 multi-modal（多模态/多解法） 任务，同一个 T 恤可以先折左边，也可以先折右边，可以抓袖口，也可以抓肩点。**如果数据量不够大，混合太多操作流派会让行为克隆学到“平均动作”，表现为犹豫、抖动、抓点不稳定。**所以实战里通常先约定一个主策略，再逐步增加衣服颜色、材质、尺寸、背景和初始姿态多样性。

8.5 常见追问

• 失败轨迹要不要保留？• 采衣服折叠数据时怎么避免模型学到操作者的犹豫？• 公开衣物折叠数据能不能直接拿来微调自己的机械臂？

8.6 高分追问回答

失败轨迹不应该一刀切删除。失败前的有效动作、失败状态和人工恢复段都很有价值。比如抓错角点之前的接近动作可以保留，抓错之后的失败状态可以训练 failure detector（失败检测器），人工把衣服重新拉平的片段可以训练 recovery policy（恢复策略）。

操作者犹豫可以通过三层处理：采集前统一策略并让操作者练习，采集后用 episode viewer（轨迹查看器） 清洗停顿过多或动作反复的 episode，训练时对高质量片段加权。LeRobot 衣物折叠案例里也强调“先质量、再速度”，并用过滤和 reward model 对数据做筛选。

公开衣物折叠数据不能直接当万能数据。

要先检查 robot embodiment（机器人形态）、action dimension（动作维度）、camera view（相机视角）、fps、坐标系、夹爪定义、任务语言和 license（许可协议）。如果自己的机器人和公开数据差异大，公开数据更适合做视觉/阶段/动作先验，本机最后仍要用目标机器人数据 SFT。

9. Q9：如果想用智元 AgiBot World、LeRobot、Open X-Embodiment、DROID 这类公开数据，怎么落到自己的 VLA 项目？

9.1 面试官问法

• 智元 AgiBot World 这类数据集怎么用到你自己的机器人项目？

• Open X-Embodiment、DROID、LeRobot 数据能不能直接混到本机数据里训练？

• 外部数据和自己机器人动作空间不一致怎么办？

• 公开数据集很大，怎么判断哪些数据值得用？

9.2 考察点

这类问题考察的是你能不能把“会报数据集名字”升级为“会做数据落地”。公开数据真正落地时，最容易出问题的是 data schema（数据格式规范）、coordinate frame（坐标系）、动作单位、控制频率、相机视角、语言模板、成功标注和许可协议。

9.3 30 秒回答

• *公开数据不能盲目混训，必须先做数据审计和 schema 对齐。**我会先查 license（许可协议）、机器人形态、相机配置、action schema、fps、坐标系、gripper convention（夹爪开合约定）、语言标注和成功标签。训练上通常采用 “公开大数据预训练/表征学习 + 本机高质量 SFT + 真机失败回流”，而不是直接把外部动作当成自己机器人的低层监督。

9.4 2-3 分钟展开回答

可以把公开数据分成三类用途。

第一类是跨机器人预训练。Open X-Embodiment/RT-X 这类数据的价值在于跨机器人、多任务、多技能；公开论文摘要中提到它覆盖 22 种机器人和 527 个技能，用于研究跨 embodiment 的正迁移。但它的动作空间和硬件差异很大，所以更适合作为 VLA 的通用视觉-语言-操作先验，而不是直接拿来输出你机器人上的 action。

第二类是真实场景泛化。DROID 是典型 in-the-wild（真实开放环境）机器人操作数据，官方项目页显示它覆盖 76k 条 demonstration trajectories（示教轨迹）、350 小时交互数据、564 个场景和 86 类任务。这类数据的价值是场景、物体、背景和操作方式更接近真实部署，适合补充实验室数据的分布不足。

第三类是可工程化数据格式。LeRobot 的价值不仅是数据集，还包括记录、可视化、训练、评估和 LeRobotDataset（LeRobot 数据集格式）。如果团队还没有自研完整数据链路，可以把自己的数据先转换成 LeRobot 风格，借助它的 viewer、训练脚本和 Hub 生态快速验证。

智元 AgiBot World 这类数据适合关注更大规模、更真实的场景覆盖。公开组织页介绍 AgiBot World Beta 包含 1M+ 轨迹、2976.4 小时、217 个任务、87 个技能、3000+ 物体和 100+ 真实场景；AgiBotWorld2026 的 Hugging Face 数据卡还采用 LeRobot v2.1 结构，包含 meta/、data/、videos/、episodes.jsonl、info.json、任务标签、2D bbox 和 step-level instruction segments（步骤级指令片段）。实战里我不会只问“数据量多大”，而会问：

• 里面有没有和我目标任务相近的 skill？• 机器人是否是双臂、灵巧手、移动底盘，和我的机器人差多少？• 相机是头部、腕部、第三视角还是多模态传感器？• action 是关节位置、末端位姿、速度控制，还是更高层 skill？• 数据是否带语言、阶段、成功、失败、物体和场景元信息？• 许可是否允许商业使用、二次训练和模型发布？

落地流程建议是：

1. 做 dataset audit（数据集审计）：抽样 50-200 条 episode，用 viewer 看画面、动作、标注、失败和任务分布。

2. 做 schema mapping：把外部数据映射到统一字段，例如 observation.images.front、observation.state、action、task、timestamp。

3. 做 action 对齐：统一单位、频率、归一化、坐标系、夹爪开合方向和动作裁剪范围。

4. 做任务筛选：不要全量混，优先筛选与目标任务相近的 pick、place、fold、open、wipe、insert 等 skill。

5. 做分阶段训练：先公开数据预训练，再本机 SFT，最后用真机失败回流做小步微调。

面试高分点是：公开数据的最大价值通常不是替代本机数据，而是减少从零学视觉语义、操作先验和阶段结构的成本。**真正决定上线成功率的，仍然是目标机器人、目标场景、目标任务上的高质量数据。

10. Q10：真实数采从 0 到 1 怎么做任务定义、验收和数据版本管理？

10.1 面试官问法

• 采完数据怎么知道能不能训练？• 数据集版本怎么管理？• 怎么避免采了几千条 demo 才发现时间戳、相机或动作字段有问题？• 数据清洗是人工做还是自动做？

10.2 考察点

这类问题考察的是工程成熟度。真实项目里，数据集不是一个文件夹，而是一个可复现、可追踪、可回滚的工程资产。面试官希望听到 dataset versioning（数据集版本管理）、metadata（元数据）、validator、viewer、split 和质量看板，而不是只说“采完拿去训练”。

10.3 30 秒回答

我会先写 task card（任务卡）再采数据，而不是边采边想。任务卡定义任务边界、成功标准、传感器配置、action schema、场景随机化、采集数量、训练/验证/测试切分和验收指标。采集中用 dashboard 检查掉帧、延迟、动作范围、成功率和 coverage（状态覆盖率）；采完用 validator 和 episode viewer 清洗；每次发布数据都带版本号、schema version、hash、changelog 和固定 split。

10.4 2-3 分钟展开回答

真实数采最怕“数据量看起来很大，但训练不了”。常见事故包括：相机时间戳没对齐、动作单位混乱、某批数据 gripper 方向反了、语言标注不一致、训练集和测试集同场景泄漏、失败轨迹没有原因、相机外参变了但 metadata 没更新。

所以我会按下面流程做。

第一，采集前写 task card。里面至少包含：

• 任务目标：例如“将桌面上摊平的灰色长袖衫折成三折并放到右侧区域”。• 任务边界：哪些初始状态算 in-distribution，哪些太难暂时不采。• 成功标准：二值成功、阶段得分、质量评分、完成时间。• 传感器配置：相机名称、分辨率、fps、外参、安装位置。• action schema：关节/末端、absolute/relative、单位、控制频率、限幅。• 随机化维度：物体、背景、光照、桌面位置、操作者、初始姿态。• split 规则：按物体/场景/操作者切分，而不是随机按帧切分。

第二，采集中实时监控。**不要等全部采完才发现数据坏了。**看板至少要显示 episode 数、成功率、平均时长、掉帧率、动作超限次数、相机曝光异常、时间同步误差、不同物体/背景/操作者的覆盖情况。

第三，采完后自动校验。validator 要检查：

• 每个 episode 是否有完整图像、状态、动作、语言、timestamp。• 图像帧数、动作帧数和状态帧数是否能按 fps 对齐。• action 是否超过物理范围，是否存在突变。• gripper 是否长期不动，是否出现开合方向异常。• episode 是否过短、过长、停顿过多或重复动作过多。• metadata 是否包含 robot id、camera id、operator id、scene id、object id 和 schema version。

第四，使用 episode viewer 做人工抽检。机器人数据必须能被快速回放，否则数据质量只能靠猜。 viewer 应该支持多相机同步播放、动作曲线、夹爪状态、语言指令、成功/失败标签和备注。

第五，版本管理要像代码一样严肃。建议用：

dataset_v0.1_raw：原始未清洗数据。•

dataset_v0.2_clean：通过自动 validator 的数据。•

dataset_v0.3_hq：人工/模型筛选后的高质量数据。•

dataset_v0.4_fail_recovery：加入失败恢复和 DAgger 数据。

每个版本都要有固定 metadata.json、schema.yaml、split.json、changelog.md 和数据 hash。否则你无法回答“这次成功率提升到底来自模型，还是来自数据版本变化”。

10.5 常见追问

• train/val/test 怎么切才合理？• 数据越多越好吗？• 如果发现一批数据相机外参错了，要不要全部丢？

10.6 高分追问回答

train/val/test 不应该随机按帧切，因为相邻帧高度相关，会造成数据泄漏。更合理的是按 object、scene、operator、日期或任务难度切分。比如训练集有红色/蓝色 T 恤，测试集放绿色/黑色 T 恤；训练集是白桌面，测试集是木纹桌面；训练集是操作者 A/B，测试集是操作者 C。

数据不是越多越好。**低质量、重复、标注错误或动作风格冲突的数据会拉低模型上限。**如果算力和时间有限，我宁愿保留覆盖关键状态的 1000 条高质量 demo，也不盲目加入 10000 条重复或噪声数据。

外参错的数据不一定全部丢。如果训练只用 RGB 和 proprioception（本体状态），且动作标签仍然对齐，可以保留做视觉预训练或低权重训练；如果模型依赖 3D 坐标、点云或相机到机器人坐标变换，那这批数据需要修复外参或移出主训练集。

11. Q11：如何把外部数据、本机数据和失败数据按比例混合训练？

11.1 面试官问法

mixing ratio（混合比例）

11.2 考察点

这类问题考察的是训练策略，而不是数据罗列。核心是理解不同数据的作用不同：公开数据给通用先验，本机成功数据给可执行动作，失败数据给边界和恢复，仿真数据给长尾覆盖。混训不是把所有 parquet/json/video 扔进一个 dataloader，而是要控制采样权重、训练阶段和损失权重。

11.3 30 秒回答

• *我会优先用 staged training（分阶段训练），而不是一开始全量混训。**常见做法是公开数据/仿真数据做预训练，本机成功数据做 SFT，失败和恢复数据用于 failure detector、critic、recovery policy 或低比例 replay。最终阶段本机数据权重要最高，因为上线动作必须符合目标机器人和目标控制器。

11.4 2-3 分钟展开回答

数据混合可以按目标来分。

如果目标是学视觉语义和操作常识，公开数据比例可以高一些。例如 Open X-Embodiment、DROID、AgiBot World 或 LeRobot 社区数据能帮助模型理解物体、场景、动作阶段和语言指令。

如果目标是让模型控制自己的机器人，本机成功数据必须占主导。原因是机器人低层 action 对 embodiment 很敏感：同样是“向左拉袖子”，不同机械臂的关节空间、夹爪宽度、控制延迟和相机视角完全不同。

如果目标是提升鲁棒性，失败数据不能直接和成功 demo 等权混合。失败数据要拆开用：

• 失败前的正常片段：可作为成功轨迹的一部分。• 失败动作本身：用于训练 safety classifier、critic 或负样本。• 失败后的人工恢复：用于训练 recovery policy。• policy rollout 中的偏离状态：用于 DAgger 或失败回流补采。

一个实战训练配方可以是：

Stage 0（阶段 0）：用公开数据/仿真数据训练视觉语言动作先验，只评估离线 loss 和少量仿真任务。

Stage 1（阶段 1）：加入本机成功 demo，冻结部分 backbone，重点训练 action head 或 adapter。

Stage 2（阶段 2）：用本机高质量数据高权重 SFT，让动作风格收敛。

Stage 3（阶段 3）：真机 rollout，收集失败状态和人工纠正数据。

Stage 4（阶段 4）：小比例加入失败恢复数据，训练恢复策略或做 DAgger 迭代。

• *如果外部数据比例太高，常见后果是模型看起来语义理解更好，但真机动作更不稳定。**这通常不是模型“不够大”，而是 action distribution（动作分布）被外部 embodiment 拉偏了。

11.5 数据混合面试模板

可以这样回答：

我不会先问“混多少比例”，而是先问“这类数据承担什么训练角色”。公开数据用于通用先验，本机成功数据用于动作对齐，失败数据用于边界和恢复，仿真数据用于长尾。最终我会用 ablation 比较 public only、local only、public pretrain + local SFT、public/local mixed、local + recovery replay。上线前只相信真机 rollout 成功率、失败类型分布、动作平滑度和延迟，不只看离线 loss。

11.6 高分追问回答

混合比例可以从保守值开始。例如最后 SFT 阶段本机数据 70%-90%，公开相近任务 5%-20%，失败恢复 5%-10%。但这不是固定公式，必须通过 ablation 决定。如果目标任务很窄，本机数据比例更高；如果目标任务开放、语义多样，公开数据比例可以更高，但 action head 要用本机数据强对齐。

失败数据不会天然“教坏”模型，关键看标签和损失。失败动作不能作为正向 BC 监督等权训练；但失败状态可以训练终止检测、风险评分、恢复策略和数据采样器。

高分回答要把失败数据从“坏 demo”改写成“安全边界和恢复能力的监督”。

12. Q12：上线前怎么做数据查漏补缺，避免“离线指标好、真机一跑就崩”？

12.1 面试官问法

• 你怎么判断数据还缺什么？• 离线 loss 降了，但真机失败率高，怎么排查？• 真实部署前要做哪些数据层面的 checklist？• 如何设计下一轮定向补采？

12.2 考察点

这类问题最贴近实战。面试官想听你是否能从 rollout 失败中反推数据缺口，而不是盲目换模型。具身智能的数据飞轮本质是：训练、真机评估、失败聚类、定向补采、再训练。

12.3 30 秒回答

• *上线前我会做覆盖率审计和失败模式审计。**覆盖率看物体、背景、光照、初始姿态、相机视角、操作者、速度、接触状态是否覆盖；失败审计看抓空、滑脱、遮挡、动作越界、阶段跳转、语言误解、延迟和安全触发。下一轮补采不是随机加数据，而是按失败 Pareto 排序，优先补最高频、最高风险、最容易修复的场景。

12.4 2-3 分钟展开回答

离线指标好、真机失败，常见原因有五类。

第一，数据覆盖缺口。训练集中衣服都是浅色，真机遇到黑色 T 恤；训练都是摊平，真机衣服卷边；训练都是白桌面，真机桌面有花纹。解决方法是做 coverage matrix（覆盖矩阵），列出物体、背景、光照、初始姿态、任务阶段、失败类型，再看哪些格子没有数据。

第二，动作分布缺口。训练数据里的操作者都很慢，真机策略输出快动作；训练都是开环折叠，真机需要中途修正；训练几乎没有恢复动作。解决方法是补采不同速度、不同偏差状态和人工纠正数据。

第三，标注或同步错误。离线 loss 低不代表动作对齐正确。如果 timestamp 错位，模型可能学到未来信息；如果 gripper 标签反了，模型会学到错误开合；如果相机和动作延迟不一致，真机会抖。解决方法是重放 episode，看图像、状态、动作曲线是否物理一致。

第四，评估协议不稳定。每次测试的衣服、桌面、光照、初始姿态不同，导致实验之间不可比。解决方法是固定评估集，比如 5 件衣服、2 种初始姿态、每个模型 20-50 次 rollout，所有实验都用同一套评分标准。

第五，系统延迟和控制器问题。数据训练没错，但推理慢、action chunk 接不上、控制器限幅或通信抖动，也会导致策略失败。数据层面要记录真实部署 timestamp，训练时尽量模拟可用观测，而不是使用未来帧。

下一轮补采可以按下面方式排优先级：

• 高频失败：出现次数最多，优先修。• 高风险失败：可能撞击、掉落、夹坏物体，优先修。• 高收益失败：补少量数据就可能明显提升的场景，优先修。• 高不确定失败：模型置信度低或动作分布发散的状态，优先补。• *面试时可以主动说：我不会把 rollout 失败只记成 fail，而会把失败按阶段、原因、场景、物体、动作和传感器状态结构化记录。**这样下一轮数据采集才有方向。

12.5 上线前数据查漏补缺 checklist

• 任务定义是否固定：任务开始状态、结束状态、成功标准是否写清楚。• 数据字段是否完整：图像、状态、动作、语言、timestamp、metadata 是否齐全。• 时间同步是否可信：相机、状态、action、触觉是否按真实可用时间对齐。• action schema 是否统一：单位、频率、坐标系、夹爪方向、限幅是否一致。• 覆盖率是否足够：物体、背景、光照、姿态、遮挡、操作者、速度是否覆盖。• split 是否无泄漏：测试集是否按物体/场景/操作者隔离。• 失败是否结构化：失败阶段、失败原因、恢复动作是否记录。• 评估是否可复现：固定评估物体、次数、评分规则和录像复核。• 部署数据是否回流：真机 rollout 是否自动保存成功、失败、延迟和安全事件。

13.高频追问补充：具身智能在手术等精密场景中场景变化、关键帧、模态延迟和部署延迟

这一组问题偏工程系统。面试官会看你是否真的理解真实机器人数据链路：场景会变、传感器异步、模型推理有延迟、部署硬件有限，任何一个环节没处理好都会污染策略。

13.1 Surgical scene 变化很大怎么办？

手术场景变化包括血液、烟雾、组织形变、器械反光、遮挡、相机视角变化、光照变化、组织颜色差异和不同医生操作风格。回答不能只说“数据增强”，要把 perception、data、policy 和 safety 串起来。

可用方法：

domain randomization（域随机化）：随机化光照、材质、组织颜色、相机噪声、反光和遮挡。

robust augmentation（鲁棒增强）：颜色扰动、motion blur、specular highlight、烟雾/血液合成遮挡。

• 多视角/双目融合：一个视角被挡时，另一个视角补偿几何信息。

• segmentation auxiliary task：增加 surgical tool、needle、tissue、target region 分割辅助任务。

• uncertainty detection：遇到高不确定性或 OOD 场景时降低速度、保守执行或请求人工接管。

• failure recovery policy：把真实失败回流变成恢复数据，而不是只统计失败率。

高分回答是：场景变化不能完全靠模型硬扛，必须有不确定性监控和降级策略。在手术机器人里，低置信度时应该减速、暂停、重新观察或人工接管，而不是继续 open-loop 执行。

13.2 MAE 做关键帧 reconstruction，帧选择怎么打分？

如果说“关键帧重建”，就要能讲帧选择逻辑。最简单是等间隔抽帧，但这通常不是高分答案。更合理的是给每一帧打信息量分数：

各项可以这样定义：

motion_t：工具尖端、夹爪、相机或光流运动幅度。•

semantic_change_t：动作阶段变化，例如接近、接触、抓取、释放、打结阶段切换。•

uncertainty_t：重建误差、预测方差、attention entropy 或模型置信度。•

tool_saliency_t：工具和目标组织区域的显著性比例。•

phase_boundary_t：夹爪状态变化、接触力突变、EEF 速度突变等事件边界。

面试中可以说：关键帧不是为了少存几张图，而是让自监督重建覆盖任务状态转折点和高信息量片段。如果只随机抽帧，可能大量采到背景稳定帧，错过工具接触组织的关键瞬间。

13.3 多模态融合时视觉、语言、触觉延迟不同，怎么对齐？

不同模态天然不同步：视觉通常 15-60Hz 且有曝光/编码/传输延迟；力觉/触觉可能 100-1000Hz；机器人状态和控制命令更高频；语言是低频事件。

工程做法：

• 每条数据必须带 timestamp（时间戳），不要只按数组 index 对齐。

• 用 ring buffer 保存最近一段视觉、状态、动作、触觉。

• 对高频状态/触觉做插值或窗口聚合，对低频视觉做 nearest-neighbor 或延迟补偿。

• 语言作为 slowly varying condition，通常在 episode 或 subtask 内保持不变。

• 对视觉延迟做 state prediction，例如用当前 joint state 和历史 action 外推视觉帧对应时刻到控制时刻。

• 模型侧用 temporal encoder，把异步模态整理成带时间戳或相对时间编码的 token。

一句高分回答：训练数据要按真实可用时间对齐，而不是用未来信息对齐。如果训练时把未来视觉帧和当前动作配在一起，离线指标会好看，但真机部署会因为信息泄漏失败。

13.4 整个 pipeline 的 E2E latency 怎么拆？瓶颈在哪？

E2E latency 不能只报一个数字，要拆模块：

SDK

Diffusion Policy 的瓶颈常在 denoising steps 和视觉 encoder；VLA 的瓶颈常在多视角 token 数、自注意力计算、动作 token 自回归生成或大模型前向。优化手段包括减少视觉 token、缓存语言 embedding、少步采样、DDIM/flow/consistency distillation、TensorRT/ONNX、FP16/INT8、异步推理和 action chunk。

面试回答模板：

我会先做 latency profiling，而不是猜瓶颈。把 pipeline 打 timestamp，分出 camera、preprocess、encoder、policy、safety、通信和控制执行。若瓶颈在 diffusion steps，就减少采样步数或蒸馏；若瓶颈在视觉 encoder，就降 token、裁剪 ROI 或量化；若瓶颈在通信和控制，就做异步队列和低层插补。