占据网络(Occupancy Network,简称OCC)是近几年来自动驾驶技术讨论中的高频词。之所以这项技术这么火热,是因为传统感知系统需要先识别出一个障碍物是什么,才能决定如何应对,但对于如掉落的大块泡沫、侧翻的货车、散落一地的施工建材等没见过的异形障碍物,系统不认得就不会处理,对于自动驾驶感知来说,这始终是一大隐患。
占用网络则换了一种思路,它不再关心这是什么,而是将车辆周围的三维空间切成密密麻麻的小方块(体素),逐个判断每个方块里到底有没有东西。这意味着,自动驾驶系统不需要认识世界上所有障碍物,也能知道哪些空间不可通行,那这项技术发展到现在,哪些企业真的将其用在了量产车上?
从专利看特斯拉的技术细节
特斯拉是纯视觉占用网络路线最早的实践者,特斯拉占用网络技术于2022年AI Day就已首次公开,2026年3月,特斯拉公布了一项名为《Artificial Intelligence Modeling Techniques for Vision-Based High-Fidelity Occupancy Determination and Assisted Parking Applications》的专利,相当完整地展示了占用网络的技术思路。
这套方法摒弃了激光雷达,仅靠8颗车外摄像头的图像数据,通过神经网络推断车辆周围三维空间中每个体素是否被有质量的物体占据,其默认体素边长为33厘米,但在车辆附近的已占用区域,体素可以动态缩小到10厘米,提供更精细的空间描述;当物体形状弯曲、单个体素无法准确描述边界时,网络还会对被占用的体素继续切分子体素,以此拟合曲线轮廓。
此外,这套系统还引入了时间维度的设计,特斯拉的占用网络并不只是对单帧画面做判断,系统还利用Transformer架构将当前的三维表征与历史时序数据融合,由此计算出占用流,也就是移动体素的确切速度。在占用流基础上叠加三维语义信息,还可以让网络知道某一团体素到底是一辆在动的车,还是一栋固定不动的建筑。这个思路的本质,其实是将空间感知和运动预测揉进了同一个模型里,而不是分成两个独立的步骤。
特斯拉还在训练方法上做了重要的工程选择,该专利透露,特斯拉采用无监督训练方法,不依赖人工标注来训练占用网络的体素预测能力,这让模型能够通过大规模实车数据自我迭代。从图像输入到转向、加速、制动输出,全程由神经网络驱动,端到端的整体设计,使得驾驶行为更接近人类的自然操作方式。
国内纯视觉路线的实践
视线回到国内,国内的纯视觉路线发展其实也很快。小鹏汽车从2024年宣布取消激光雷达之后,已将占用网络作为其感知架构的关键环节。在2025年的CVPR自动驾驶分论坛上,小鹏作为唯一受邀发表主题演讲的车企,展示了其自动驾驶基座模型的技术成果。这套模型的核心思路与特斯拉有相似之处,即直接从感知到控制建立闭环,不依赖传统规则引导,以模仿人类决策为目标。
小鹏在去掉激光雷达后,依靠5颗800万像素高清摄像头组成的感知网络,配合自研的图灵芯片,城市道路识别精度提升了约40%,系统功耗反而降低了约20%。占用网络在这个架构里承担的任务,是从二维图像中推断三维空间的占据状态,尤其要处理好那些传统检测模型无法覆盖的异形障碍物。
小鹏也在往模型预测的方向走,其世界基座模型具备链式推理能力,也就是模型在做驾驶决策时不只是看到当前状态就做反应,而是会持续在内部进行我在哪、发生了什么、要怎么走这样的推理链条,再给出决策。这种推理能力建立在占用网络提供的三维空间理解基础上,让模型对复杂场景的应对更加连贯和可控。
多传感器融合中的占用网络
纯视觉方案用占用网络从二维图像算出三维世界,但还有一条路线选择从物理层面解决了问题,那就是将占用网络与激光雷达等传感器融合。之所以会出现这条技术路线,是因为很多行业从业者认为视觉算法再强,遇到逆光、暴雨、大雾等极端条件也可能失效,而激光雷达作为主动传感器,抗干扰能力是一种物理层面的保障。
华为的ADS系统在这条路线上走得就很靠前,华为把摄像头、激光雷达和毫米波雷达的数据在特征层面做融合,使占用网络的输入不再只有图像,还包含了激光雷达的厘米级三维点云和毫米波雷达的速度信息。华为ADS 3.0就已彻底摒弃了传统的BEV网络,只保留GOD大网,GOD可以将外界环境划分为立方体,判断其占用状态,不仅能辨识已知物体,还能识别异形障碍物。这是一种将占用网络作为感知主干而非辅助模块的设计思路。到了ADS 4.0版本,华为进一步采用摄像头加激光雷达、毫米波雷达、超声波、高精地图/V2X的融合方案,为车辆提供360度环境感知能力。
与纯视觉路线相比,融合方案可以让不同传感器之间实现互相校验。当某个传感器因环境条件失效时,其余传感器仍能维持基础的空间感知,提升整个系统的鲁棒性。占用网络在这种架构中的作用不再只是猜空间状态,而是在接收更可靠的输入后,输出更确定的空间占用判断。
小米的做法更进一步,其在融合方案中提出了超分辨率占用网络的技术思路。传统占用网络将障碍物描述为方块,对曲面物体的边界描述不够精细,导致明明空间足够穿行或泊入,系统却可能因识别误差而不敢上前。小米在占用网络中加入超分辨率的矢量算法,直接把路面上的可视物体模拟成连续曲面的立体物,将占用网络的空间分辨精度提高到小于0.1米,相较于特斯拉FSD约0.32米的精度,小米的方案在体素级别的空间刻画上更细。
从传感器配置来看,小米采用了1颗激光雷达、11颗高清摄像头、3颗毫米波雷达和12颗超声波雷达,配合两颗Orin高算力芯片,综合算力达508TOPS。占用网络在这个配置中对接激光雷达的点云数据,同时对多传感器输入做特征融合,这也是超分辨率得以实现的前提。
占用网络与世界模型的结合
时间进入2026年,占用网络有一个很明显的技术走向,那就是与世界模型概念的深度结合。世界模型的核心是让系统不仅能感知当前状态,还能推演未来可能发生的变化,占用网络在其中充当了基础空间表示的载体。
理想汽车在这方面的布局就值得展开说说,2025年ICCV上,理想自动驾驶技术研发负责人詹锟做了关于世界模型的分享,阐述了理想从数据闭环走向训练闭环的技术逻辑。所谓训练闭环,就是让模型不仅从实车数据中学习,还能在一个自建的环境模拟器中持续迭代,通过与环境互动来提升能力。理想的方案是在云端构建一套世界模型训练环境,来训练车端的VLA大模型,这是将世界模型与强化学习闭环落地于量产自动驾驶系统的完整架构。
占用网络在这个框架中就扮演了非常重要的角色,理想提出的SparseWorld-TC模型,采用轨迹条件的思路,模型不只是输入历史帧来做预测,还将自车未来的行驶轨迹编码为条件,让网络能够回答如果我沿这条轨迹行驶,周围的空间会变成什么样这类问题。这意味着占用网络从单纯的描述当前空间升级为预测不同决策下的空间变化,为规划模块提供了更直接的支撑。在技术实现上,SparseWorld-TC彻底放弃了传统VAE的离散化编码方式,改用直接特征回归来保留更丰富的几何细节,避免了对远处物体的模糊化问题。
蔚来走的则是世界模型加占用网络的技术路线,2025年5月,蔚来推送了其世界模型NWM(NIO World Model)的首个版本。这套模型的核心能力体现在时间维度的推演上,NWM可以在100毫秒内推演出216种可能的未来轨迹并寻找最优路径,然后在下一个100毫秒内根据新的外界信息重新推演。占用网络在这个体系里负责基础的空间建模,NWM需要先理解当前三维空间中每个位置的占用状态,才能在此基础上推演未来的变化。与理想的不同之处在于,蔚来的世界模型更强调对环境演化本身的理解,而理想更侧重将占用预测直接用于规划评估。
从技术路线上看,理想和蔚来的方向指向一个共同的趋势,即占用网络不再只是感知模块,而是在逐步成为端到端自动驾驶系统中的核心空间推理单元(相关阅读:哪些企业的自动驾驶方案使用了世界模型,用法有啥区别?)。它的输出不仅描述当前世界是什么样的,还可以回答如果我这样做,世界会变成什么样,这个能力的延伸,正在改变占用网络在整个智能驾驶架构中的定位。
技术演进的几个方向
如果从技术发展的角度看,2026年占用网络的演进方向大致有两条主线。
一条是向4D化发展。传统占用网络只描述当前时刻的三维空间占用情况,而4D占用网络引入了时间维度,开始预测占用状态在未来一段时间内的变化。这要求系统不仅判断这个方块现在有没有东西,还要推断它下一秒会移到哪里。将占用流概念纳入占用网络,本质上是把空间感知和运动预测融合到同一个模型之中。
另一条是与端到端架构的结合。过去占用网络通常只负责感知这一个环节,输出占用网格之后交给决策模块处理吗,但随着技术演进,多个企业的方案中,占用网络已经与规划模块联成一个整体,空间的占用状态直接参与轨迹生成,不再需要中间的人工定义接口。小鹏的世界基座模型、理想的VLA、蔚来的NWM,都在朝这个方向走。这种架构可以让信息传递更具连贯性,由于从感知到决策不再经过逐层转译,损失的信息更少,面对复杂场景时的表现也更稳定。
此外,占用网络在不同企业的技术体系中扮演的角色也正在分化。特斯拉把它作为纯视觉路线的核心支柱,华为把它作为多传感器融合体系中的一个感知层,理想和蔚来则把它的边界延伸到预测和规划。这些技术路线的差异也反映了一个事实,那就是占用网络本身是一个相对底层的空间感知技术,它真正能发挥多少作用,取决于每家企业在它之上构建了怎样的上层架构。
269