2026年4月底,特斯拉开始向北美用户推送FSD V14.3。这个版本在技术层面做了很多改动,其将车辆控制环节最后的30多万行手写C++代码全部移除,改由神经网络直接输出驾驶指令。与此配套的还有编译器重写、模型规模大幅提升,以及时空记忆能力首次落地等。今天就详细和大家聊一聊特斯拉的FSD V14.3。
端到端的最后一块拼图,是怎么做到的?
其实从V12开始,特斯拉就将感知和路径规划这两个环节交给了神经网络,也就是系统看到画面后判断周围有什么和应该往哪走这两步不再依赖于人手写的规则。但在最后一步,也就是车辆控制(把规划结果转化成具体的方向盘转角、油门深度和刹车力度)仍然依赖一套传统的控制逻辑。这套逻辑对应着超过30万行C++代码,由工程师逐条编写和维护。
用代码来控制车辆其实一直存在一个问题,那就是无论规则写得多详尽,总有让系统发懵的场景。比如黄灯快结束时该加速通过还是提前停下?停车场里面对好几个空位该选哪一个?这些人类驾驶员凭直觉就能处理的情况,落到规则系统里,就会变成生硬的取舍。代码只能覆盖工程师提前想好的那部分场景,但脱离规则之外的部分就成了系统的能力盲区。
这次V14.3的更新,其实最大的改变就是做了一件事,用AI神经网络直接接手智能驾驶的整个环节。系统从车载摄像头接收图像,到最终的方向盘和踏板指令,中间不再经过任何手写规则的约束,这也是我们经常听到的全域一段式端到端架构。在这个架构下,不再需要单独定义感知、规划、控制这些模块,整个流程用一个神经网络完成。
让AI神经网络接手智能驾驶有什么好处呢?对于自动驾驶系统来说,其不再需要判断如果红灯则停车这类规则条目,而是可以从海量人类驾驶数据中学习该怎么做。学习的数据里就包含了各种复杂场景下的应对方式,模型的任务就是把这些东西内化成自己的经验。这样做也意味着系统的能力上限不再取决于多少工程师花了多少时间写了多少条规则,而是取决于训练数据的丰富程度和模型本身能不能吃得下这些数据。
为此,特斯拉把神经网络的参数量提升到了此前版本的约10倍。更大的模型能记住如异形交叉口、复合信号灯、复杂的施工区布局、非标准化的交通标志等更多样的路况模式,这些之前因容量受限无法充分学习的边缘案例,现在有了被模型吸收的条件,这也是为什么V14.3在一些罕见场景下的表现会明显好转的原因。
编译器也重写了,反应时间缩短了20%
除了模型架构本身,特斯拉在V14.3里还动了一个不太容易被注意到的环节,那就是编译器,编译器的作用是把神经网络的计算逻辑翻译成硬件能执行的指令。自动驾驶模型的计算图极其复杂,传统编译器在翻译过程中会产生冗余的计算步骤,导致实际执行时多跑了很多不必要的操作。
这次特斯拉基于MLIR(多层中间表示)框架从零重写了编译器和运行环境。MLIR的好处是可以在较高的抽象层次上保留计算图的结构信息,更容易识别出哪些运算可以合并、哪些数据可以被复用,然后生成更精简的硬件指令序列。这样的设计可以让摄像头捕捉到画面到车辆执行加速或转向动作的时间延迟比之前缩短20%。
这20%对一个以120公里每小时行驶的车辆来说,相当于在感知到危险之后,制动介入的距离会变短。在高速场景下,快一点和慢一点之间的差别有时候就是非常关键的。
模型能记住3到5秒之前发生的事了
除了上面说的这些,V14.3还第一次给FSD模型加入了明确的时空记忆能力,时长大约3到5秒。在此之前,FSD的决策更偏重于基于当前帧画面做反应,虽然之前的版本也通过算法间接捕捉了一些时序信息,但没有一个明确的记忆机制。这样做的结果就是系统偶尔会表现得像忘了上一秒发生过什么似得,譬如一辆车刚变道切到前面,系统反应慢了半拍,或者跟车过程中忽然来一脚不必要的刹车等行为就容易出现。
3到5秒的记忆意味着模型现在能记住短时间内前车的加减速动态、刚刚错过的那个路牌上的限速数字、或者路口那一侧行人的移动速度变化。这些信息会参与后续的轨迹规划和车速调整,让驾驶动作更具连贯性,基于此,车辆不再是逐帧反应,而是有了一个连续的时间感知。
这一能力对大模型来说是非常重要的,参数量上来了,模型本身就有足够的容量去维持一个短期的记忆状态,不需要外挂什么额外的模块。特斯拉要做的就是在训练过程中让模型学会将刚才发生了什么和现在应该做什么这两件事关联起来。
强化训练翻倍,专挑难的路况学
对于大模型的训练,特斯拉也明显加大了对长尾场景的投入,在V14.3的训练数据集里,特斯拉有意识地从全球车队中采集了如复合信号灯路口、弯道上的黄灯、施工区不规则的锥桶摆放、小动物突然穿行、让行标志被遮挡的街角路口等等大量罕见和复杂的驾驶案例。这些场景在日常行驶中占比很小,但处理得当与否直接决定了用户对系统的信任度。
特斯拉采用的方式是在训练过程中主动提高这些困难样本的权重,而不是让模型在大量常规路况中淹掉它们。这种针对性的强化训练让V14.3在相对罕见的场景下表现出了和常规路况接近的处理水准。也正因为如此,它的加减速曲线、停车标识前的响应方式以及停车场内的泊车选择,都变得更果断、更像一个熟练的驾驶员。
这里提到的强化训练,并不是替换掉先前的人类驾驶数据监督学习训练,而是在此基础上使用难度更高、更稀少的数据进一步精调模型。基础训练仍然依赖海量人类驾驶视频,让模型学会正常该怎么做,而强化样本的作用是让模型在不太正常的情况下也别慌,知道该怎么处理。
视觉感知也变强了,还能听见急救车?
在整个端到端的框架下,感知能力的提升也是系统整体变好的一部分,V14.3还升级了视觉编码器,也就是神经网络里负责从原始图像中提取信息的那一部分。新的编码器在低光照、夜间、隧道等光线不足的场景下能提取出更丰富的画面信息。
同时,它对3D空间结构的理解也有显著提升,能更准确地判断物体在三维空间中的位置和形状。这意味着一些如从人行道伸出来的树枝、路边斜放着的自行车等外形不规则的障碍物,现在能被更精确地识别。
在有些介绍中,还提到了V14.3一个非常有意思的功能,那就是音频感知能力。特斯拉给系统加入了对紧急车辆的识别能力,车辆不再只能看到闪灯的紧急车辆,也能听到鸣笛声,并据此做出调整。当识别到紧急车辆后,系统会放慢车速、留出通行空间,必要时还会发出提示。这是感知从纯视觉走向多模态的一个信号。
泊车不再是犹豫不决的状态
对于车主来说,V14.3提升最明显的就是泊车功能,有些车主反馈,之前版本的FSD在停车场里的表现并不是特别好,明明面前好几个空位,它却不知道该停哪一个,反复切换候选车位,机动动作也很犹豫,而V14.3在这点上有了明显改变。系统现在会在导航地图上用P图标提前标注出它打算停的位置,进到车位附近后对目标的选择和泊入动作都果断了不少,这也说明规划模块在当前版本中对停车场这类场景的理解更深了,不再是一个大概知道要停车但不确定停哪的模糊状态。
除了泊车之外,V14.3在十字路口的表现也更流畅,面对复合信号灯(主灯和辅灯同时存在、或者直行灯和转弯灯交替变绿)的时候,V14.3的通行判断更接近人类。它不会在黄灯前出现犹豫不定的加速与刹车切换,也不会在绿灯亮起时迟缓半秒才起步。对于车道保持功能,弯道行驶的居中稳定性也明显改善,对相邻车道的侵入更少,过弯速度也控制得更加平滑。
V14.3后续会做些什么?
特斯拉在V14.3的更新说明里还提前说了几件后续要做的事,其中用户期待已久的坑洼路面避让功能被正式写进了路线图。目前看到的技术路线上,系统会先通过视觉检测路面的不平整情况,然后把它纳入路径规划的考量范围。更远的计划是结合车辆悬架传感器的信息来进一步校验路面状态,让避让的时机和幅度都更加准确。
另外,针对搭载HW3硬件的车型,特斯拉计划在6月底推送一个轻量版本,即FSD V14 Lite。这个版本是对完整版V14.3的模型做蒸馏压缩,保留核心的驾驶能力,但在模型规模和细节表现上会有取舍。需要说明的是,由于V14.3完整版本身的计算负载远超HW3设计时的算力上限,轻量版并不是把完整版裁减一下就能直接适配的。它需要单独做一轮面向HW3的架构调整和专项训练,才能在这种老旧硬件上稳定跑起来。这对老车主来说其实是非常有利的,但压缩之后的实际表现是否还能保持V14.3的核心体验,还得等上线后看实际反馈。
需要说明的是,对于真正去掉监督版这三个字的FSD,也就是车辆可以完全自主行驶、不需要驾驶员时刻关注的版本,特斯拉在V14.3的更新里没有给出具体时间。从技术趋势看,V14.3的架构已经具备了支撑更高阶自动驾驶的底层能力,但目前,V14.3仍然是一个L2级系统,方向盘后面的人依然是责任主体。
240
