2026年过半,自动驾驶行业的技术路线愈演愈烈,从2025年端到端大模型全面上车,到2026年VLA(视觉-语言-动作模型)与世界模型两条路线的公开激化,技术路线选择成为了每家车企都必须面对的选择题。在英伟达GTC大会上,吉利汽车集团CTO李传海、Momenta CEO曹旭东等人公开对VLA提出质疑;华为车BU CEO靳玉志则直接称VLA是取巧方案,主张以世界行为模型替代;另一边,理想、小鹏、元戎启行等则在坚定推进VLA架构的量产落地。这两条路线究竟差异何在?选错方向是否意味着掉队?
VLA和世界模型,争的到底是什么?
想要厘清VLA和世界模型到底争的是什么,首先要搞清楚VLA和世界模型各自解决了什么问题。
VLA的全称是视觉-语言-动作模型,它在视觉感知和动作执行之间加入了一个关键中间层,语言。这个语言并不是让车开口说话,而是用大语言模型的推理能力来做驾驶决策,简单理解,VLA做的事情是在看到道路状况后,调用语言模型理解这个场景意味着什么,然后决定该怎么操作。小鹏汽车通用智能中心负责人刘先明对此有一个精炼的总结,VLA学的是人在这个世界中会怎么做。
世界模型的逻辑则完全不同,它关心的不是人怎么做,而是关心这个世界本身会怎么变化。世界模型的核心能力是预测,这里的预测不是指预测下一秒的图像长什么样,而是预测物理世界在车辆执行某个动作之后会如何演化,譬如当系统看到路边有一个弹跳的皮球,世界模型就会基于对物理因果关系的理解,预判皮球后方大概率会跑出一个孩子。Waymo在CVPR 2026上首次曝光的世界模型,就是基于Google DeepMind的Genie 3架构构建,能够预测包括其他车辆和行人的行为意图等道路场景的动态演化。
从技术的角度来看,VLA是以语言智能为核心,试图用一维的文本Token来描述和推理三维物理世界;而世界模型是则以空间智能为核心,直接在连续的状态空间中建模物理规律和因果关系。两者处理世界的方式存在根本差异,一个是描述,而另一个是模拟。
技术路线的不同,并不意味着两条路线彼此排斥,理想的MindVLA-o1在VLA框架内就引入了预测式隐空间模型,能够在隐空间中模拟未来场景变化;小鹏的第二代VLA同样被官方定义为既是动作生成模型,也是理解和推演的物理世界模型。刘先明就曾明确表示,世界模型与第二代VLA不是互相替代或互相竞争的关系,而是通过不同训练信号共同提升模型对物理世界的理解能力和在物理世界的行动能力。其实现在智驾行业正在形成一个共识,那就是VLA负责感知当前环境、理解语义、决定下一步动作,世界模型则负责推演未来5到10秒场景会如何演变。
主流玩家如何站队?
虽然现在VLA和世界模型有融合的趋势,但各家的研发投入和资源倾斜方向仍然差异明显。
华为作为世界模型路线的坚定代表,2025年ADS 4发布WEWA 1.0架构时,就率先提出了世界模型技术路线。华为的技术方案是采用云端部署世界引擎,通过AI生成难例,将长尾场景的密度提升1000倍;车端则部署世界行为模型,从多传感器全模态感知出发做决策。华为预计2026年搭载乾崑智驾的车辆超80款,年底搭载量达300万辆,2026年研发投入预计超180亿元。
Waymo同样选择了世界模型方向,2026年初,Waymo基于Google DeepMind的Genie 3架构发布了Waymo世界模型,该模型可根据文本提示生成虚拟驾驶环境,用于训练系统以应对各种边缘场景。在CVPR 2026上,Waymo进一步披露了其世界模型的完整训练框架,该训练框架分为三个阶段,整体借鉴了大语言模型的训练范式。
预训练阶段直接复用Google DeepMind的Genie 3通用世界模型,该模型已在海量视频数据上习得物理规律和场景演化能力;中期训练阶段则将Waymo积累的超过2亿英里无人驾驶数据注入模型,让Genie 3学会理解多摄像头、激光雷达和毫米波雷达等自动驾驶专用传感器的输入,将通用视觉认知迁移为针对驾驶场景的空间感知;后训练阶段则针对长时序仿真和规划等具体任务进行微调与蒸馏,使模型能够生成包含图像和点云的多传感器仿真数据,并支持龙卷风、道路积水等长尾场景的生成,从而服务于大规模仿真测试和边缘场景覆盖。
VLA阵营则以理想、小鹏和元戎启等企业为代表。理想的MindVLA-o1以原生多模态MoE Transformer为核心,在感知层采用3D ViT编码器将视频流还原为三维空间,融合了视觉语义与激光雷达点云的几何信息;决策层在语言模型基础上引入了隐式世界模型,可以在隐空间中预演未来几秒的场景变化,再通过Action Expert模块并行解码生成符合车辆动力学的轨迹。理想MindVLA-o1模型的完整训练流程分三个阶段,即先用视频预训练世界模型表征,再在MindVLA中持续推演,最后将世界模型、推理与行为生成联合对齐。
小鹏的第二代VLA则去掉了传统架构中的语言转译中间环节,从视觉输入直接映射到车辆控制指令,决策延迟从200毫秒降至80毫秒以内。它依托720亿云端参数与近1亿条场景数据训练,在硬件上标配图灵芯片以支撑实时推理。小鹏将第二代VLA定义为兼具动作生成与物理世界推演能力的模型,其核心是从海量人类驾驶行为中学习如何合理行动。
特斯拉的FSD V14则走了一条不太一样的路,V14在V13端到端模型的基础上进一步扩大了模型规模,参数量较V13提升了10倍,完整模型大小约12.5GB,导航、路径决策、避障逻辑等也被全部并入神经网络,纳入统一的训练框架。
特斯拉还将xAI的Grok大模型能力整合进了车辆的决策系统,Grok在这里不是让座舱变成聊天工具,而是作为FSD决策系统的一个解释层,为系统带来了意图理解和决策可解释性方面的提升。像是模糊指令、多目标描述、场景约束等都能被Grok转译为可执行的行程规划。
从架构上看,这相当于在端到端的感知、控制一体化框架之上,叠加了一层语言模型的推理能力,让车辆在复杂路口、环岛、高速合流等场景中的表现更像理解环境并做选择,而不是功能拼接。
Momenta走的则是世界模型+强化学习路线,2026年4月北京车展期间,Momenta正式发布了R7强化学习世界模型并实现量产首发,Momenta CEO曹旭东将公司定位为物理AI基座模型的构建者,并明确提出世界模型与强化学习共同构成物理AI的两大核心支柱。
R7世界模型可分为三层,第一层是世界模型预训练,Momenta基于超过120亿公里真实驾驶里程提炼出约1亿段黄金数据,将物理规律、常识与因果关系压缩进模型;第二层是世界模型仿真,将世界模型用于自动驾驶的闭环仿真,让系统推演自身行为变化时世界将如何演变,对长尾场景进行高效评估;第三层则是在世界模型中进行强化学习,在前两层基础上构建高保真虚拟训练场,让系统在接近真实的环境中反复探索与试错。
这套三层架构打通了预训练、仿真、强化学习的技术闭环,让R7赋予自动驾驶系统不仅能看懂世界、理解世界,更能预测世界,理解物体的物理属性、运动因果关系及潜在交互可能,从而实现更精准的预测与规划。
从行业整体来看,2026年4月中国乘用车标配L2+及以上辅助驾驶功能的新车渗透率已超过41%,若将选配纳入统计,2025年L2及L2+渗透率已达88%。高阶智驾正从少数人尝鲜走向多数人标配,在这个快速普及的过程中,技术路线的选择或将直接关系到后续的迭代速度和成本结构。
路线之争,争的是什么?
现在在网络上关于VLA和世界模型的争论,表面上看是技术方案的争论,其实是对自动驾驶行业发展两个问题的讨论。
第一个问题是自动驾驶系统的智能应该从哪里来?VLA的答案是从人类的知识和推理中来,即通过大语言模型在文本数据上习得的常识和逻辑,迁移到驾驶场景中做决策;世界模型给出的答案则是从物理世界的规律中来,即通过在海量视频数据上学习物体如何运动、场景如何演化,掌握因果关系的预测能力。李飞飞在2025年11月的文章中提出的观点就很有代表性,空间智能是AI的下一个前沿,语言智能并不能囊括人工智能的所有内涵。
第二个问题是模型的理解应该发生在哪个空间?VLA是将三维世界的信息压缩成一维的语言Token,在大语言模型里完成推理,这种压缩必然带来信息损失,因为文本无法完整表征三维空间中的距离、方向、尺寸等关键要素;世界模型则是直接在连续的状态空间中建模,避免了维度压缩带来的信息损失。
但VLA也有世界模型不完全具备的优势,世界模型能通过物理推演理解不刹车就会撞上这一层因果关系,也能据此做出刹车的决策,但它不具备VLA那种基于交通法规和社会常识的语义推理能力。比如交警手势优先于红绿灯这类场景,需要理解的不只是物理碰撞的规避,还包括交通法中的优先级规则和人类社会的通行惯例,VLA通过语言模型习得的常识和逻辑恰好能处理这一类问题。此外,VLA可以用自然语言向驾驶员解释自己为什么要这样做,而世界模型只能输出预测结果和动作指令,无法给出人类可读的决策理由。
这两条路线在算力需求上均面临巨大挑战。VLA模型包含大语言模型,计算和内存成本高,当前VLA模型的推理延迟普遍在100到300毫秒,而自动驾驶端到端延迟需要控制在50毫秒以内,世界模型的高保真推演则更慢。两者都需要在云端训练和车端部署之间找到平衡。
从2026年的行业动态来看,纯粹的二选一正在被融合取代,小鹏同时使用VLA和世界模型训练智能驾驶技术;理想在VLA框架内融入了世界模型的预测机制;小米2026年5月开源的Xiaomi OneVL模型,更是将VLA、世界模型和潜空间推理三大技术路线统一到了同一框架中。有行业分析指出,VLA适合复杂语义场景和人机交互,世界模型适合大规模训练和长尾场景生成,两条路线高度互补,未来有望深度融合。
选错路线,会被淘汰吗?
回到最初的问题,选错技术路线,会被淘汰吗?
短期来看,不会,2026年VLA和世界模型都还没有形成压倒性的技术优势,也没有任何一家企业因为选错了路线而掉队,两条路线各有适用场景,也各有需要攻克的技术瓶颈。
但长期来看,选错的风险不在于选VLA还是选世界模型,而在于是否具备持续迭代和融合的能力,现在行业共识已经形成,模块化的小模型时代已经结束,自动驾驶的下半场是物理世界的基座模型,无论是VLA还是世界模型,最终都要走向统一的基座模型架构。
-- END --
142