训练一个人类VLA模型需要5步

今天冒着拥堵的风险开车进了一趟城，虽然很堵，但是斑马线还是主动停车礼让了行人一次，被过马路的小姐姐竖起了大拇指表扬。

心里不免美美的，当时这就冒出了一个idea，这不就是一个老司机VLA驾驶模型的人类反馈强化学习（RLHF）的过程嘛，我的VLA模型又被强化了一次，于是有了这篇小短文。

从无证新手到老司机的过程，是人类驾驶VLA（Vision-Language-Action）模型不断升级的过程：

1）Vision-Language基座模型：

模型能力：对交通环境的感知，对交通规则的理解；

训练数据：环境-文本描述数据（马路、斑马线、红绿灯等）；初级交通规则数据（红停绿灯行等基础规则）；

数据来源：九年义务教育，日常认知中的课本、图书、影视视频等；

训练方法：Pre-Training无监督学习；

训练周期：数十年（教育和日常认知）。

2）Vision-Language基座模型-Pro版：

模型能力：对交通环境深度理解，对交通规则深入掌握；

训练数据：交规考试数据（各种交通标识、交通规则）；

数据来源：交规考试题库；

训练方法：Fine-tune；

训练周期：一个星期（死记硬背交规考试）。

3）Vision-Language-Action模型

模型能力：基础的汽车操控能力，根据驾驶环境控制汽车的能力（停车入库、坡起……）；

训练数据：环境-控制动作数据、完成科目任务的拆解（驾校教练指挥和指令）；

数据来源：教练的训斥、教练亲自示范；

训练方法：MoE专家模型、CoT思维链模型、End-to-End模仿；

训练周期：3-6个月。

4）Vision-Language-Action模型-Pro版

模型能力：丝滑的汽车操控能力，应对突发情况下的汽车控制，驾驶状况的预判能力，L4+无图无导航的驾驶能力……

训练数据：日常驾驶中的反馈数据；

数据来源：吃一堑长一智的事故、礼让行人被点赞、违章被罚单的肉疼感、大脑自动导航能力……；

训练方法：RL、RLHF、Diffusion预测；

训练周期：三年以上。

5）Vision-Language-Action模型-蒸馏版

模型能力：大脑放空，靠小脑控制下的肌肉记忆开车。

以上内容全部是虚构，请勿实际操作。

核心项目推荐：具身智能；深海科技；算力光互联；商业航天；工业AI；低空经济；新材料……欢迎深入交流：

相关推荐