自动驾驶技术的演进过程,本质上是人类试图赋予机器“理解物理世界几何结构”能力的过程。在过去很长一段时间里,感知系统高度依赖于对特定目标的“分类与识别”。如果系统在训练集中见过某种车辆或行人,它就能在道路上通过拉出二维或三维的边界框(Bounding Box)对其进行定位。然而,这种基于目标识别的方法在面对真实世界无穷无尽的“奇葩”障碍物时,逐渐显露出疲态。
为了打破这一瓶颈,感知算法开始从识别目标转向感知空间,占用网络(Occupancy Network)便是在这种背景下应运而生的一种算法。它不再纠结于物体“是什么”,而是直接回答空间“是否被占用”,这种视角的转变不仅将感知维度从2D升维至3D,更极大地提升了自动驾驶系统的泛化能力和安全性
为什么自动驾驶需要理解“空间”
在自动驾驶感知的早期阶段,主要使用“HydraNet”的架构,利用多摄像头融合以及Transformer技术将二维图像转化为对周围环境的3D感知。虽然这种方式已经能够生成鸟瞰图(BEV)视角的感知结果,但它依然深受“方盒子”模型的束缚。
传统的感知系统倾向于用规则的长方体包裹目标,但现实世界中的物体形状极不规则,像是带有细长吊臂的起重机、满载货物且形状奇特的板车,或者是道路上散落的纸箱和破碎轮胎皮等非常常见。如果模型仅仅被训练识别轿车和卡车,那么对于这些从未见过的异形障碍物,它很可能会因为无法分类而选择视而不见,这就是行业内常说的感知漏检问题。
此外,早期的BEV视角主要关注地面的横向和纵向空间,却在Z轴方向上缺失关键的高度信息。这导致车辆在面对如立交桥的边缘、限高杆或者是倾斜的电线杆等半空中的物体时,难以做出精准的判断。
占用网络通过将世界划分为微小的体素(Voxel),即三维空间里的像素点,彻底解决了这一痛点。系统会预测每一个微小体素是“空闲”状态还是“被占用”状态,这种基于体积感知的方式不仅能精准识别物体的运动状态差异,还能捕捉到物体极其细微的几何结构。可以说,占用网络让自动驾驶车辆拥有了一种“空间直觉”,即便它不认识眼前的物体到底是什么,但只要它占据了空间,系统就能感知到它的物理存在并进行避让。
| 感知维度 | 传统边界 | 占用网络 |
| 感知目标 | 预定义的特定类别(车/人/物) | 任意形状的物理存在(体素占用) |
| 空间表达 | 2D/3D框,缺乏内部及边缘细节 | 3D体积空间,精细描绘几何形状 |
| 异形物体处理 | 极差,容易漏检未见过的物体 | 优秀,只要有体积就能感知 |
| 悬挂物感知 | 难以获取高度信息,常误判 | 精准捕捉Z轴占用,可识别悬空物 |
| 遮挡鲁棒性 | 依赖目标完整性,易丢失遮挡目标 | 结合时序预测,可推测遮挡空间的占用 |
占用网络与传统边界框感知方案优势对比
这种从“目标导向”到“空间导向”的转变,实际上是机器人学中占用网格映射(Occupancy Grid Mapping)思想在深度学习时代的体现。它不再追求对物体语义的完美解读,而是确保对物理世界几何连续性的准确把握。这种策略在处理“长尾场景”(Edge Cases)时可以表现出极强的韧性,因为无论外界环境如何变化,物理法则是不变的,即任何实体都必须占据一定的空间。
占用网络的底层架构
要支撑起如此庞大的实时三维感知任务,占用网络背后的神经网络架构极其复杂。以特斯拉在AI Day 2022上公开的技术方案为例,其流程始于高效的骨干网络(如RegNet)和特征融合模块(如BiFPN),其从多个环视摄像头中提取高维的二维图像特征。随后,模型通过引入空间注意力机制(Spatial Attention),利用带有3D空间位置信息的空间查询(Spatial Query)在多相机生成的图像特征中进行跨相机融合。这个过程可以被视为一种数学上的升维操作,能将离散的、存在畸变的二维图像数据重构到统一的三维向量空间中。
在这个3D向量空间内,系统引入了时序融合(Temporal Fusion)来处理动态环境。特斯拉的方案设计了两套特征队列,时序特征队列每27毫秒更新一次特征,用于捕捉快速运动目标的连贯性;而空间特征队列则根据车辆行驶的固定距离来更新,这在车辆停止(如等红绿灯)时尤为重要,能防止模型因为静止而“忘记”之前的空间信息。为了整合这些时序信息,通过使用空间RNN(Spatial RNN)模块,将隐状态(Hidden State)组织成一个二维或三维网格,随着车辆的移动不断更新周围环境的“记忆”。
在解码阶段,占用网络并不只是输出一张体格化的地图。为了打破固定分辨率的限制,模型引入了隐式坐标查询(Implicit Queryable MLP Decoder)。这意味着,对于空间中的任意坐标(x, y, z),模型都能解码出该点的多种信息。这种设计赋予了感知系统极高的灵活性,它既能提供粗略的全景感知,也能在关键区域进行高密度的细粒度采样。
除了特斯拉的路径,还衍生出了如OccNet和TPVFormer等不同的变体。OccNet采用了级联体素解码器(Cascade Voxel Decoder),这种架构不再是一次性生成高分辨率的3D体积,而是通过多级细化的方式逐步丰富高度信息和体素细节,从而在计算效率和感知精度之间找到了平衡。它还使用了专门为3D空间优化的三维可变形注意力机制(3D Deformable Attention),这使得系统在处理行人、交通锥等细小障碍物时的mIoU(平均交并比)表现显著优于传统的BEV方法。
为了进一步提升感知的准确性,像是理想、华为等国内厂商则选择了视觉与激光雷达的深度融合。理想的BEV融合算法在摄像头采集的丰富语义基础上,加入了激光雷达的高精度测距数据。激光雷达能够在200米外提前探测到危险目标,并利用智能滤噪算法识别雨雾、前车尾气等环境噪点,其反应速度通常仅为0.1秒,远超人类驾驶员的0.6 秒。在这种融合架构下,占用网络被赋予了更强的鲁棒性,即便在黑夜、隧道烟雾或极端天气下摄像头失效时,基于激光雷达点云生成的空间占用信息依然能确保AEB等安全功能的正常触发。
下表对比了主流占用网络技术实现路径的差异:
| 技术名称 | 核心机制 | 优势 | 局限性 |
| 特斯拉占用网络 | 纯视觉+隐式MLP解码 | 运行效率极高(100+FPS),硬件成本低 | 对极端光照敏感,极度依赖数据闭环 |
| OccNet(级联解码器) | 级联体素细化+时序自注意力 | 小物体感知极其精准,处理细微几何出色 | 训练过程复杂,对算力资源有一定要求 |
| 华为GOD网络 | 激光雷达+视觉多模态融合 | 3D世界模型构建更真实,异形物体识别强 | 硬件成本较高,异构数据融合挑战大 |
| TPVFormer | 三视角平面表征(Tri-Perspective) | 内存开销小,在大物体识别上表现稳健 | 细粒度几何恢复能力弱于密集占用网络 |
这些算法演进的背后,其实是在“计算成本”与“信息密度”之间进行取舍。虽然三维体素能提供最丰富的信息,但如果将空间划分得太细,计算量会呈指数级爆炸。隐式查询和级联解码等技术的出现,正是为了在有限的车载算力下,实现对三维世界的高质量重构。
占用网络如何改变车辆的“大脑决策”
如果说感知是自动驾驶的“眼睛”,那么规划与控制(PnC)就是车辆的“大脑”。在过去,感知与规控之间存在一条很深的鸿沟,感知输出的是一堆带有噪声的标签,而规控则基于一套硬编码的逻辑规则。占用网络的引入,正在通过一种“统一表征”的方式填补这一鸿沟。由于占用网络直接输出物理世界的几何占用状态,规划模型可以利用这些数据生成代价地图(Cost Map),而不再需要复杂的中间转换层。
在局部路径规划中,系统需要评估成千上万条候选轨迹的安全性。传统的做法是针对每个识别出的物体进行碰撞检测,这在物体数量众多的拥堵路口将非常耗时。而基于占用网络,规划器可以使用时空占用网格图(SOGM)来预测周围空间在未来短时间内的状态演变。这种预测不再是简单的线性外推,而是结合了物体的运动流信息(Flow),能准确预判行人的走位或车辆的加塞。通过在Frenet坐标系中进行轨迹采样,并结合动态占用地图进行实时评估,车辆通过这种方式可以选出一条既舒适又安全的最佳路径。
占用网络带来的更深层次的变革在于规划算法的“物理化”。一些技术方案提出将人工势场法(APF)作为物理启发引导嵌入到神经网络的训练中。这意味着预测出的占用图不仅要符合视觉特征,还要符合物理规律。例如,物体不能瞬间位移,两个实体不能在同一时间占据同一空间。这种物理约束的加入,使得规划生成的轨迹更加平滑且符合人类驾驶直觉。在复杂的城市环境中,系统甚至可以利用软行为博弈(Soft Actor-Critic,SAC)算法,通过多频道代价地图观察(M-COST)来学习处理不可预见的障碍物行为,从而实现在动态环境中的实时自适应规划。
此外,占用网络产生的连续几何表示(如神经带符号距离场ONDP)为避障提供了毫米级的精度。这种高精度的几何反馈对于狭窄空间的穿行至关重要。规划器通过差异化距离查询,可以快速计算车辆边缘与最近障碍物之间的梯度信息,引导控制系统做出微小的转向修正,这在自动泊车或在狭窄巷道通行中具有巨大的应用价值。
占用网络对规控系统的赋能主要体现在以下几个环节:
统一的输入源:将静态道路结构(如护栏、马路牙子)与动态障碍物(行人、车辆)统一在同一个体素空间中,消除了跨模块处理产生的误差累积。
预测与感知的解耦:感知模块输出的Flow信息直接包含了物体的速度和运动趋势,使得规划模块在做短时预测(通常为2秒时域)时更加精准。
安全性闭环:通过物理启发式学习,系统能识别出“不可通行区域”的边界,即便这些区域是由未分类的异形物体构成的,也能确保车辆维持足够的安全余量。
这种感知与规控的融合,正是端到端(End-to-End)自动驾驶的必经之路。在特斯拉的FSD V12架构中,占用网络提供的3D空间理解作为底层基础,支撑起了一个单一的深度学习模型,实现了从原始图像输入到驾驶指令输出的直接映射。这种架构不再依赖于数百万行的人写规则,而是通过学习海量优秀人类驾驶员的行为数据,自动习得在复杂空间环境下的驾驶策略。
产业落地与未来图景
占用网络虽然在理论上极具吸引力,但在实际的大规模产业落地中,却面临着数据标注和实时算力的双重挑战。在传统感知时代,人工拉框标注障碍物还是可行的,但对于三维空间的每一个体素进行分类标注,显然超出了人工的极限。为此,行业开发出了4D自动标注技术。特斯拉利用Dojo超级计算机和定制的D1芯片,通过离线重构技术(如NeRF)对行驶过的历史路径进行全量3D重建,可以生成极高精度的真值(Ground Truth)来监督在线网络的训练。这种自动标注系统只需12小时就能处理10,000次驾驶行程的数据,其效率相当于500万小时的人工劳动。
在硬件层面,运行高帧率的占用网络需要极其强大的计算底座。特斯拉的FSD芯片通过分布式并行计算,将神经网络执行分配到独立的系统上,从而保证了实时性。而像理想等厂商采用的双英伟达Orin-X平台,则提供了高达508TOPS的总算力,为复杂的BEV融合算法和舒适度COST预测模型提供了充足的余量。这种“算力换空间理解”的逻辑,正是当前智能汽车硬件竞赛的核心驱动力。
未来,自动驾驶的感知将进一步细粒度化与通用化。随着OpenOcc等高质量3D占用基准测试集的发布,算法模型对细小物体的捕捉能力将持续提升。同时,占用网络将不再局限于感知障碍物,而是会朝着语义占据(Semantic Occupancy)方向演进,即不仅可以知道车辆前方有东西,还知道那是草地、水坑还是坚硬的岩石,从而指导车辆在非铺装路面上进行决策。
最后的话
回望自动驾驶的发展史,我们正在经历一个从“看图识字”到“空间感知”的变革期。占用网络不仅是一项技术的发明,更是一种人工智能解决物理世界问题方式的最新解法。其实想让机器像人一样驾驶,要做的就是要让机器建立起对“存在”与“虚空”最直观、最准确的把握。而在这一进程中,占用网络无疑是那颗点亮3D世界感知的灯泡,让自动驾驶普及成为可能。
394