今天冒着拥堵的风险开车进了一趟城,虽然很堵,但是斑马线还是主动停车礼让了行人一次,被过马路的小姐姐竖起了大拇指表扬。
心里不免美美的,当时这就冒出了一个idea,这不就是一个老司机VLA驾驶模型的人类反馈强化学习(RLHF)的过程嘛,我的VLA模型又被强化了一次,于是有了这篇小短文。
从无证新手到老司机的过程,是人类驾驶VLA(Vision-Language-Action)模型不断升级的过程:
1)Vision-Language基座模型:
模型能力:对交通环境的感知,对交通规则的理解;
训练数据:环境-文本描述数据(马路、斑马线、红绿灯等);初级交通规则数据(红停绿灯行等基础规则);
数据来源:九年义务教育,日常认知中的课本、图书、影视视频等;
训练方法:Pre-Training无监督学习;
训练周期:数十年(教育和日常认知)。
2)Vision-Language基座模型-Pro版:
模型能力:对交通环境深度理解,对交通规则深入掌握;
训练数据:交规考试数据(各种交通标识、交通规则);
数据来源:交规考试题库;
训练方法:Fine-tune;
训练周期:一个星期(死记硬背交规考试)。
3)Vision-Language-Action模型
模型能力:基础的汽车操控能力,根据驾驶环境控制汽车的能力(停车入库、坡起……);
训练数据:环境-控制动作数据、完成科目任务的拆解(驾校教练指挥和指令);
数据来源:教练的训斥、教练亲自示范;
训练方法:MoE专家模型、CoT思维链模型、End-to-End模仿;
训练周期:3-6个月。
4)Vision-Language-Action模型-Pro版
模型能力:丝滑的汽车操控能力,应对突发情况下的汽车控制,驾驶状况的预判能力,L4+无图无导航的驾驶能力……
训练数据:日常驾驶中的反馈数据;
数据来源:吃一堑长一智的事故、礼让行人被点赞、违章被罚单的肉疼感、大脑自动导航能力……;
训练方法:RL、RLHF、Diffusion预测;
训练周期:三年以上。
5)Vision-Language-Action模型-蒸馏版
模型能力:大脑放空,靠小脑控制下的肌肉记忆开车。
以上内容全部是虚构,请勿实际操作。
核心项目推荐:具身智能;深海科技;算力光互联;商业航天;工业AI;低空经济;新材料……欢迎深入交流:
1573