当智驾来到物理AI时代，行业会发生什么变化？

如果你最近看过几场汽车发布会，可能会注意到一个反复出现的词，那就是物理AI大模型，小鹏在讲，理想在讲，Momenta在讲，连做芯片的英伟达也在讲。这个词出现的频率之高，让人感觉它不仅仅是又一个营销话术，更像是一个行业趋势。那么物理AI到底指的是什么？它跟之前常说的端到端、BEV+Transformer有什么本质区别？当智驾系统开始用物理AI来驱动，开车的体验会发生哪些真实的变化？

为什么自动驾驶到了一个不得不变的时刻？

在物理AI成为热词之前，智驾行业的主流技术路线是端到端，端到端用一个神经网络去模仿人类驾驶员的驾驶行为，通过给这个网络看大量的驾驶数据，便可以完成驾驶动作的学习。在端到端大模型中，输入是摄像头画面，输出是方向盘转角和油门刹车信号，其不需要工程师手写规则，也不需要把感知、决策、控制拆成独立的模块来处理，网络自己就能从数据中学会开车的基本操作。

现在端到端这条路确实跑通了，而且跑得很快，城市导航辅助驾驶在越来越多的车型上落地，高速场景的表现也越来越稳定。但随着端到端模型的应用，行业很快又发现了一个问题，端到端模型在面对没怎么见过的场景时，表现会明显下滑。元戎启行的CEO周光就用过一个比喻来描述这个问题，做智驾就像坐跷跷板，你把上海某个特别复杂的路口调好了，结果深圳某个路口就出问题了；今天把城市拥堵的加塞处理顺了，明天跑山路急弯又不对劲了，按下葫芦浮起瓢，永远在补漏洞，他把这种现象叫作跷跷板效应。

那出现这个问题的原因到底是什么？其实端到端模型本质上是在记住驾驶行为，而不是在理解为什么要这么做。它从训练数据里学到的是一种统计上的关联，即某种画面输入大概率对应着某种操作输出。模型并不知道画面里的那个障碍物是一个正在滚落的箱子，也不知道箱子滚落的轨迹和速度会受什么物理规律影响，它只是见过类似的画面，然后模仿了画面对应的操作。一旦遇到训练集里没怎么出现的如一辆三轮车拉着超宽的货物在一个乡镇集市路口慢慢转弯，旁边还跟着几个提着菜篮子、走位飘忽的行人等场景，模型的泛化能力就非常有限了。

理想汽车的CEO李想就曾直言，传统端到端模型本质是模仿学习，它只能接收视觉信号结合车速输出运动轨迹，并不具备对真实物理世界的因果理解能力；即使能应付大部分泛化场景，遇到从未见过的复杂情况就会出现问题。而这这恰是物理AI可以解决的核心问题。

什么是物理AI？

我们可以先做一个简单的对比，大家熟悉的ChatGPT、DeepSeek这类模型，处理的是文字、图片、视频这些数字世界里的信息，你问它一个问题，它给你一个答案。它不需要知道重力加速度是多少，不需要理解一个球掉在地上会弹几下，也不用关心一个杯子从桌上滑落之后会碎成几片，这些东西对它的工作也没有影响，因为它处理的始终是符号和信息。

物理AI处理的东西则完全不同，它的输入来自摄像头、激光雷达、毫米波雷达这些真实世界的传感器，它的输出是方向盘转角、刹车压力、油门开度这些会改变真实世界状态的控制信号。它必须理摩擦力、惯性、动量、运动轨迹等解物理规律，因为这些规律决定了它做出的每一个决策能不能成立。

举一个简单的例子，物理AI需要知道，在湿滑路面上同样的刹车力度会带来更长的制动距离；一个高速旋转的车轮如果突然抱死，车辆可能会侧滑而不是直线停止。这些对于它来说不是抽象的知识，而是做决策时必须依赖的计算条件。

简单概括下，物理AI是一类能够感知真实物理环境、理解其中的物理规律、并在该环境中采取行动的智能系统。它的核心特征不是大，而是与世界连通，的认知和行动必须符合物理世界的约束。

对于自动驾驶来说，物理AI做的不是让系统简单地从数据中记住看到什么就做什么，而是能够在内部构建一个对当前环境的动态理解，其中包括每个物体的位置、速度、运动趋势，然后基于对物理规律的认知去预测接下来几秒会发生什么，最后选择一个安全、高效的操作方案。这个过程中，它既要用到语义理解能力（比如看懂红绿灯和交警手势），也要用到物理推演能力（比如预判一个正在滚落的球会往哪跑）。

有了这个概念基础，就可以理解为什么如今的智驾系统需要从端到端向物理AI升级了。

两条路线，一个目标

行业在过去的一年里分化出了两个主要的技术方向，即VLA和世界模型。它们的目标一致，那就是让智驾系统具备对物理世界的整体认知能力，但实现路径有所不同，昨天就和大家讨论了各车企在两个方案上的选择（相关阅读：VLA与世界模型哪个更适合自动驾驶？为什么车企会有不同选择？）。

VLA是Vision-Language-Action的缩写，它的基本思路是把大语言模型的能力引入自动驾驶。视觉编码器提取图像特征后，语言模型先对场景进行描述（比如“前方路口有行人正在横穿，速度较快”），再由动作模块根据这段描述来决定如何操作。这种设计的优势在于系统能看懂复杂的语义信息。像是交警用手势示意通行这类动作，传统系统很难理解，但VLA可以通过语言模型的语义理解能力，知道手势意思是让我先走。同样，它也认得左转待转区、公交专用道这些名称背后代表的规则。

但VLA也存在几个比较棘手的问题，其语言描述本身存在模糊性，行人速度较快和行人正在小跑之间的细微差别，可能导致完全不同的决策结果。语言模型的推理一般需要200到500毫秒，而自动驾驶在紧急情况下需要100毫秒以内完成响应。另外，语言模型的训练数据很难穷尽所有物理世界可能出现的状态，在处理极度罕见的场景时仍然会面临泛化难题。

世界模型则走了另一条路，它的核心做法不是通过语言，而是直接在三维空间中构建一个对环境的动态表征系统。世界模型会持续接收传感器数据，更新它内部对每个物体位置、速度、运动轨迹的认知，同时预测接下来几秒环境将如何演变。你可以把它理解为一个在系统内部运行的物理模拟器，AI可以在模拟器中提前推演各种操作方案，当推演出最优结果后再付诸执行。

世界模型对空间关系和运动规律的把握具有天然优势，因为它本质上就是在学习物理世界的演化规律。但在理解人类社会约定俗成的交通规则方面，它不如VLA，它能算出物体会怎么动，但不一定理解交警的手势或者路牌上的文字说明了什么规则。

走到今天，行业里逐渐形成了一个共识，那就是这两条路不是非此即彼的选择，而是可以融合在一起。物理AI的核心特征，正是在决策过程中同时融入了对语义规则的理解和对物理规律的推演。

融合到底是怎么做的？

物理AI中的融合是如何实现的？目前行业中有几种比较成熟的方案，各有侧重。

一种是在传统VLA的基础上进行重构，以小鹏的第二代VLA为例，它去掉了语言转译这个中间环节，视觉信号不再先被写成文字描述、再由动作模块把文字翻译成控制指令，而是直接从视觉特征映射到车辆的控制信号上。当系统感知到障碍物的位置、速度、运动趋势之后，直接输出方向盘转角和加减速指令。

由于跳过了语言模型的推理过程，整套流程的延迟被大幅压缩，小鹏公布的数据显示，其决策延迟可以控制在80毫秒以内。由于系统仍然保留了语言模型带来的语义理解能力，它依旧能知道红绿灯每个颜色代表什么含义，知道交警的手势是什么意思，也能理解路牌上的文字信息。

还有一种思路上以世界模型为主体，引入强化学习作为训练机制，世界模型为系统提供一个符合物理规律的虚拟训练环境，而强化学习是驱动系统在这个环境中不断试错、从中学习的核心方法。系统在虚拟环境里反复演练，尝试不同的驾驶策略，根据驾驶结果的好坏获得奖励或惩罚，如果一次操作既安全又平稳，系统就会得到正向激励；如果操作导致危险或者让乘客感到不适，系统就会受到惩罚。经过海量的虚拟演练，系统最终会自己摸索出最优的驾驶方式。

这种方法和传统端到端的模仿学习有本质区别，模仿学习是让模型看大量的人类驾驶数据，然后试图复制人类的行为。但强化学习允许AI跳出模仿的框架，在虚拟推演中自己探索如果我是这个场景里的驾驶员，应该怎么开才最好。

Momenta的R7强化学习世界模型和小马智行的PonyWorld 2.0都采用了这一思路，PonyWorld 2.0甚至具备了自我诊断能力，系统能自动分析每一次驾驶决策的失败原因，是感知环节出了问题还是规划方向错了，并根据诊断结果自动生成针对性的训练场景来弥补短板。

理想汽车在NVIDIA GTC 2026上发布的MindVLA-o1模型则将上述两种思路进行了深度整合，它的核心是一个原生多模态MoE Transformer，同时做了几件事，通过3D空间理解让模型同时感知语义信息和三维几何结构；引入预测式隐世界模型，在潜在空间里模拟未来场景的演化趋势；采用闭环强化学习策略，利用虚拟模拟器持续探索和优化驾驶策略。

物理AI会带来哪些实质性的变化？

如果上述技术路径最终能在大规模应用中跑通，自动驾驶将会发生几个根本性的变化，这些变化都会直接体现在日常使用体验上。

第一个变化是系统对陌生场景的适应能力会大幅增强，传统模型在处理长尾问题时格外吃力，而物理AI在长尾场景中的表现将不同，世界模型可以在虚拟环境中自动生成这些从未见过的场景，而且生成的过程遵循真实的物理规律。像是皮球滚落的速度和反弹轨迹、纸箱被风吹动的方向和距离，都是符合物理计算的结果，系统在虚拟环境中提前学习处理这些情况，在遇到真实场景时就不再是没见过、不会处理的状态了。

还有一个变化是驾驶决策从统计关联转向因果推理，传统自动驾驶在面临风险场景时，本质做的是基于概率的判断，如这个场景和训练数据中的某个场景相似度很高，在那个场景下驾驶员踩了刹车，所以在这里也踩刹车。但物理AI能够尝试理解事件之间的因果关系，如前车突然减速，系统会判断是因为前车前方有障碍物，还是前车驾驶员自己开车风格犹豫。这两种情况下，本车的应对策略应该不同，前者需要本车也及时减速，后者则可以保持巡航，在物理AI时代，系统不是简单地模仿统计规律，而是尝试理清事件之间的因果链条，从而做出更准确的应对。

此外，物理AI还可以从模仿少数优秀驾驶员，升级为自己探索最优驾驶策略，传统的端到端模型能学到的最好水平，不会超过训练数据里驾驶员的平均表现，也就是说，如果训练数据里的驾驶员在某些场景下处理得不够好，模型学到的基本也是不够好的处理方式。但物理AI配合强化学习后，系统可以在虚拟环境中不断试错和自我优化，逐步探索出比训练数据更优的驾驶策略，安全性和舒适性两种约束被设计成奖励函数的一部分，AI在推演中会自然而然地找到两者之间的最佳平衡点。

总结

物理AI的出现改变了自动驾驶的行业发展，它追求的不再是系统能开多快、能处理多复杂的路况这类具体指标的比拼，而是系统是否具备对真实物理世界的整体认知能力。这也是为什么越来越多的公司开始把物理AI作为战略方向，从整个行业的技术演进路径来看，这场变化才刚刚开始，后续的演化速度可能比很多人预想的要快。