扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

训练一个人类VLA模型需要5步

2025/11/13
1573
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

今天冒着拥堵的风险开车进了一趟城,虽然很堵,但是斑马线还是主动停车礼让了行人一次,被过马路的小姐姐竖起了大拇指表扬。

心里不免美美的,当时这就冒出了一个idea,这不就是一个老司机VLA驾驶模型的人类反馈强化学习(RLHF)的过程嘛,我的VLA模型又被强化了一次,于是有了这篇小短文。

从无证新手到老司机的过程,是人类驾驶VLA(Vision-Language-Action)模型不断升级的过程:

1)Vision-Language基座模型:

模型能力:对交通环境的感知,对交通规则的理解;

训练数据:环境-文本描述数据(马路、斑马线、红绿灯等);初级交通规则数据(红停绿灯行等基础规则);

数据来源:九年义务教育,日常认知中的课本、图书、影视视频等;

训练方法:Pre-Training无监督学习;

训练周期:数十年(教育和日常认知)。

 

2)Vision-Language基座模型-Pro版:

模型能力:对交通环境深度理解,对交通规则深入掌握;

训练数据:交规考试数据(各种交通标识、交通规则);

数据来源:交规考试题库;

训练方法:Fine-tune;

训练周期:一个星期(死记硬背交规考试)。

 

3)Vision-Language-Action模型

模型能力:基础的汽车操控能力,根据驾驶环境控制汽车的能力(停车入库、坡起……);

训练数据:环境-控制动作数据、完成科目任务的拆解(驾校教练指挥和指令);

数据来源:教练的训斥、教练亲自示范;

训练方法:MoE专家模型、CoT思维链模型、End-to-End模仿;

训练周期:3-6个月。

 

4)Vision-Language-Action模型-Pro版

模型能力:丝滑的汽车操控能力,应对突发情况下的汽车控制,驾驶状况的预判能力,L4+无图无导航的驾驶能力……

训练数据:日常驾驶中的反馈数据;

数据来源:吃一堑长一智的事故、礼让行人被点赞、违章被罚单的肉疼感、大脑自动导航能力……;

训练方法:RL、RLHF、Diffusion预测;

训练周期:三年以上。

 

5)Vision-Language-Action模型-蒸馏版

模型能力:大脑放空,靠小脑控制下的肌肉记忆开车。

 

以上内容全部是虚构,请勿实际操作。

核心项目推荐:具身智能;深海科技;算力光互联;商业航天;工业AI;低空经济;新材料……欢迎深入交流:

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录

公众号科创之道主笔,标准的EE、CS专业理工男。从事研发、咨询、投资工作15年,主要关注领域为半导体、人工智能、物联网、云计算等,目前专注于风险投资和企业服务领域,平时喜欢把一些工作上的感悟随手记下来,希望通过自己的文字,融合IT产业和投融资行业知识,为跨行业沟通搭建一座桥梁。