• 正文
  • 相关推荐
申请入驻 产业图谱

VLA应用研究:VLA成为无人驾驶、AI机器人和无人工厂的技术基石

07/24 16:55
4422
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

佐思汽研发布《2025年汽车与机器人的VLA大模型应用研究报告》。

报告对VLA大模型的技术起源、发展阶段、应用案例、核心特点进行总结分析;

梳理了8种典型的VLA实现方案,以及VLA在智能驾驶和机器人领域的典型大模型,总结了VLA发展的4大趋势;

分析了理想汽车小鹏汽车、奇瑞汽车、吉利汽车、小米汽车百度、地平线、商汤科技、英伟达、知行科技等公司在智能驾驶领域的VLA应用方案;

梳理了机器人通用基础模型、多模态大模型、数据泛化模型、VLM模型、VLN模型、VLA模型和机器人世界模型等40多种大模型框架或方案;

分析了智元机器人、银河通用、星动纪元、埃斯顿、宇树科技、优必选、特斯拉 Optimus、Figure AI、Apptronik、Agility Robotics、小鹏IRON、小米 CyberOne、广汽 GoMate、奇瑞 Mornine、乐聚机器人、逐际动力、 智平方、自变量机器人等公司的大模型及VLA大模型应用方案。

Vision-Language-Action(VLA)模型是一种融合视觉(Vision)、语言(Language)和动作(Action)三大模态的端到端人工智能模型。它通过统一的多模态学习框架,将感知、推理与控制一体化,直接根据视觉输入(如图像、视频)和语言指令(如任务描述)生成可执行的物理世界动作(如机器人关节运动、车辆转向控制)。

2023年7月,谷歌DeepMind推出RT-2模型,该模型采用VLA架构,通过整合大语言模型与多模态数据训练,赋予机器人执行复杂任务的能力。其任务准确率较初代模型提升近一倍(从32%至62%),突破性地实现了垃圾分类等场景的零样本学习。

VLA的理念很快被汽车公司关注,快速应用于汽车智能驾驶领域,如果说2024年“端到端”是智能驾驶领域最火的词汇,那么2025年非“VLA“莫属。小鹏汽车、理想汽车等公司都发布了各自的VLA方案。

小鹏汽车在7月发布G7车型时,率先宣布VLA量产上车。理想汽车计划在i8车型上车VLA,有望在7月29日发布会上揭晓。

VLA模型上车是先蒸馏还是先强化学习,理想汽车和小鹏汽车给出了不同方案

小鹏汽车的G7预售发布会上,何小鹏以大脑和小脑为喻,阐述了传统端到端和VLA的功能作用。他表示,传统端到端方案发挥的是运动小脑的功能,“让汽车会开”,VLA引入了大语言模型,发挥的是大脑的功能,“让汽车开好”。

小鹏汽车VLA-OL模型

小鹏汽车和理想汽车的VLA应用走出了略微不同的路线:理想汽车先对云端基座大模型做蒸馏,然后再对蒸馏后的端侧模型做强化学习;小鹏汽车则是先对云端基座大模型做强化学习,然后再蒸馏到车端。

2025年5月,李想在AI Talk中提到,理想汽车的云端基座模型达到320亿参数,蒸馏出32亿参数模型至车端,再通过驾驶场景数据进行后训练和强化学习,在第四阶段将最终的司机Agent进行端云部署。

理想汽车MindVLA :VLA司机大模型训练与推理过程的四个阶段

小鹏汽车也将训练和部署VLA模型的工厂划分成了四个车间:第一车间负责基座模型的预训练和后训练;第二车间负责模型蒸馏;第三车间对蒸馏出的模型继续做预训练;第四车间将 XVLA部署到车端。小鹏世界基座模型负责人刘先明博士表示,小鹏汽车已经在云上训练了10亿、30亿、70亿、720亿等多个参数的“小鹏世界基座模型”。

小鹏汽车VLA :云端模型工厂的四个车间

到底哪种方案更适合智能驾驶环境,还有待观察不同厂商VLA方案上车后的具体表现。

近日,麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊大学等研究团队联合发布了针对自动驾驶领域的VLA模型的全面综述文章《A Survey on Vision-Language-Action Models for Autonomous Driving》。文中将VLA的发展划分为四个阶段:Pre-VLA(VLM as explainer), Modular VLA, End-to-end VLA和Augmented VLA,清晰地展示了不同阶段VLA的特点以及VLA发展的渐进过程。

机器人VLA模型过百,在不同路径上不断探索

相比于汽车的VLA大模型应用,动辄百亿参数、近千TOPS算力,机器人领域AI算力芯片还在选配栏里,训练数据集的参数量也大多只有100万至300万之间,还存在真实数据与仿真合成数据混用及路线争议。原因之一是,在路上行驶的汽车数量以亿计,而实际落地的机器人数量还屈指可数;另外一个重要原因是,机器人VLA模型注重微观世界的探索,相比宏大的汽车世界模型,机器人应用场景的多模态感知更丰富、执行动作更复杂、传感器数据更微观。

机器人领域的VLA模型和相关数据集已经超过百个,而且还不断有新的论文涌现,各个团队在不同路径上不断探索。

探索一:融合触觉感知的多模态VTLA框架

2025年5月,中国科学院自动化研究所、三星北京研究院、北京智源研究院团队发布了VTLA相关论文《VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation》。研究显示,机器人在执行接触密集型操作任务时,视觉和触觉感知的融合对机器人执行精度要求高的任务至关重要。VTLA通过融合视觉、触觉与语言输入,结合时间增强模块与偏好学习策略,在接触密集型插入任务中展现出超越传统模仿学习方法和单模态模型的性能。

探索二:支持多机器人协同运行的VLA模型

2025年2月,Figure AI发布Helix通用具身智能模型。Helix可以在人形机器人上协同运行,使得两台机器人可以协作解决一个共享的、长期的操作任务。在发布会演示的视频中,Figure AI的机器人在摆放水果的操作中展现出流畅的协作模式:左边的机器人把果盆拉过来,右边的机器人顺手把水果放进去,然后左边的机器人再把果盆放回原位。

Figure AI强调这仅仅是触及了“可能性的表面”,公司渴望看到将Helix规模扩大1000倍后会发生什么。Figure AI介绍称,Helix完全能够在嵌入式低功耗GPU上运行,现在立即可以进行商业部署。

探索三:机器人领域离线型端侧VLA模型

2025年6月,谷歌发布了Gemini Robotics On-Device,这款VLA多模态大模型能在具身机器人上的本地离线运行。模型能够同步处理视觉输入、自然语言指令以及动作输出。即便在无网络环境下,该模型也能保持稳定运行。

特别值得注意的是该模型的适应性和通用性。谷歌指出,Gemini Robotics On-Device是首个向开发者开放微调功能的机器人VLA模型,开发者能够根据自己的特定需求和应用场景,对模型进行个性化训练。

VLA机器人已经在大量汽车工厂实现应用落地

当汽车的宏观世界模型与机器人的微观世界模型融合时,真正意义的具身智能时代将到来。

在具身智能进入VLA发展阶段时,汽车企业具有天然的先发优势。特斯拉Optimus,小鹏Iron、小米CyberOne机器人都充分借鉴了其在智能驾驶、传感器技术机器视觉等领域的丰富经验,融合了它们在智能驾驶领域的技术积累。小鹏Iron机器人就搭载了小鹏汽车AI鹰眼视觉系统、端到端大模型、天玑 AIOS和图灵AI芯片

与此同时,汽车工厂也是目前机器人最主要的应用场景,特斯拉Optimus机器人目前主要用在特斯拉的电池车间。Apptronik与梅赛德斯-奔驰合作,Apollo机器人进入奔驰工厂参与造车,任务包括搬运、装配等体力工作。在模型层面,Apptronik 与 Google DeepMind 建立战略合作,Apollo 已集成谷歌Gemini Robotics VLA大模型。

Apptronik机器人Apollo进入奔驰工厂参与造车

7月18日,优必选发布人形机器人Walker S2热插拔自主换电系统,这项技术可在无须人工干预的情况下,让Walker S2实现3分钟自主换电。

优必选Walker S2实现自主换电

据公开报道显示,包括特斯拉、宝马、奔驰、比亚迪、吉利极氪、东风柳汽、奥迪一汽、一汽红旗、上汽通用、蔚来、小鹏、小米、北汽越野车在内的多家车企已在汽车工厂部署了人形机器人,Figure AI、Apptronik、优必选、智平方、乐聚等人形机器人,广泛应用于汽车及零部件生产组装、物流转运、设备巡查、工厂运维等多个环节。不久的未来,AI机器人会是“无人工厂”的主要“劳动力”。

「联系方式」手机号同微信号

产业研究部丨符先生 15810027571

赵先生 18702148304

数据服务部丨 张女士 13716037793

战略咨询部丨 韩女士 15810133447

推广传播部|廖女士 13718845418

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录