佐思汽研发布《2024年中国智能驾驶融合算法研究报告》,对智能驾驶融合算法(包括感知、定位、预测、规划决策等)发展现状和趋势进行了分析,对芯片厂商、主机厂、Tier1 & Tier2供应商和L4算法供应商的算法解决方案及案例进行了梳理,并对智能驾驶算法发展趋势进行总结。
从2023年8月马斯克直播试驾FSD V12 Beta(测试版),到2024年3月FSD V12 Supervised (监督版)开启30天的免费试用,八个月以来,城市NOA等高阶智能驾驶开始成为各大主机厂的竞争焦点,端到端算法、BEV Transformer算法、AI大模型算法的上车应用案例越来越多。
1、稀疏算法提高算法效率,有助于降低智驾成本
当前大多数BEV算法是稠密的,消耗算力和存储很高,如果要做到每秒30帧以上的流畅度,需要英伟达A100这样昂贵的运算资源,即便如此,也只能支持5-6个200万像素摄像头;如果是800万像素,需要多个H100这样的极其昂贵的资源。
我们的现实世界是稀疏特征的。稀疏化有利于传感器克服噪音,增加鲁棒性。此外,随着距离的增加,网格必然稀疏化,稠密网络通常只能维持在大约50米以内。稀疏感知算法通过减少Query数量以及降低特征交互量来加快计算速度并降低存储需求,大大提高感知模型的计算效率和系统性能,降低系统时延,扩大感知精度范围,并降低车速影响。
因此学术界自2021年就开始转向稀疏目标级而非稠密网格型算法。稀疏目标级算法经过长期努力,目前性能已与稠密网格相差无几。产业界也在不断迭代稀疏算法,近期地平线将纯视觉算法——Sparse4D系列稀疏算法开源(在nuScenes纯视觉3D检测和3D跟踪两个榜单上,Sparse4D均位列第一)。
Sparse4D是迈向长时序稀疏化3D目标检测的系列算法,属于时序多视角融合感知技术的范畴。面向稀疏化感知的行业发展趋势,Sparse4D搭建了纯稀疏的融合感知框架,使感知算法效率更高、精度更高,让感知系统更简洁。相比稠密BEV算法,Sparse4D降低了计算复杂度,打破了算力对感知范围的限制,在感知效果和推理速度上,都实现了对稠密BEV算法的超越。
Sparse4D算法架构
图片来源:地平线
稀疏算法另外一个显著优势,是通过降低对传感器的依赖以及降低算力的消耗,进而降低智能驾驶方案的成本。例如旷视科技提到,通过优化BEV算法、降低算力、去高精地图、去RTK、去激光雷达、统一算法框架、自动标注等一系列措施,旷视的PETR系列稀疏算法智驾方案成本相比市场上的常规方案下降20%-30%。
2、4D算法提高算法精度,有助于提升智驾可靠性
从各主机厂传感器配置来看,最近三年,随着智能驾驶功能及应用场景越来越丰富,感知传感器越来越多,大多数城市NOA智能驾驶硬件方案中配置了10-12个摄像头、3-5个毫米波雷达、12个超声波雷达、1-3个激光雷达。
车载感知传感器(振像头、毫米波冒达、超声波雷达、激光雷达)装配数量趋势
图片来源:佐思汽研数据库
随着感知传感器的数量越来越多,所产生的感知数据也越来越多。如何提高这些数据的利用效率也摆到了主机厂和算法供应商的桌面。尽管各家公司算法细节略有不同,但当前主流BEV Transformer方案的整体思路基本一致:从2D到3D到4D的转换。
时序融合能够大幅提升算法连续性,对障碍物的记忆可解决遮挡问题,更好的感知速度信息,对于道路标志的记忆可提升驾驶安全和对汽车车辆行为预测的准确度,融合历史帧的信息可以提高对当前目标的感知精度,融合未来帧的信息可以验证目标的感知准确度,从而增强算法的可靠性和精度。
特斯拉的占用网络算法Occupancy就是一种典型的4D算法。
特斯拉BEV感知模型架构
对特斯拉而言,即将原有 Transformer 算法输出的 2D BEV + 时序信息的向量空间增加高度信息,形成 3D BEV + 时序信息的 4D 空间表达形式。网络在 FSD 上每 10ms 运行一次,即以 100FPS 的速度运行,模型检测速度大幅提升。
3、感知和规控一体化的端到端算法让智能驾驶更拟人
目前,主流智能驾驶算法都已采用BEV + Transformer的架构,在感知算法领域也涌现出很多创新算法,然而,在规划控制算法领域,仍然依赖于基于规则的算法。在一些主机厂内部,感知和规控两个系统各自面临技术和实践上的挑战,有时呈现出“割裂”的状态,在某些复杂场景下,感知模块可能无法准确识别或理解环境信息,而决策模块也可能因对感知结果处理不当或算法局限性导致不正确的行驶决策,这在一定程度上也制约了高阶智能驾驶的发展。
商汤、OpenDriveLab、地平线等联合发布的端到端的智能驾驶算法 UniAD,在CVPR2023上被评为最佳论文。在UniAD中,研究人员首次将感知、预测和规划等三大类主任务、六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到统一的基于 Transformer的端到端网络框架下,实现了全栈关键任务驾驶通用模型。在 nuScenes 真实场景数据集下,UniAD的所有任务均达到领域最佳性能,尤其是预测和规划效果远超之前的最佳方案。
基础的端到端算法,直接从传感器输入到预测控制输出,但是优化困难,网络模块之间缺乏有效的特征沟通,需要分阶段的输出结果,任务间缺乏有效交互。UniAD算法提出的决策导向的感知决策一体设计方法,用token特征按照感知-预测-决策的流程进行深度融合,使得以决策为目标的各项任务指标一致提升。
UniAD算法框架
在规控算法方面,特斯拉采用交互搜索+评估模型的方式,实现舒适、有效以及传统搜索算法和人工智能的结合的算法:
-
- 首先根据车道线、占用网络、障碍物等得到候选目标,生成决策树、候选目标序列;通过传统搜索和神经网络的方式同步构建抵达上述目标的轨迹;
预测自车以及场景中其他参与者之间的相互作用,形成新的轨迹,经过多次评估选择最后轨迹。在轨迹生成阶段,特斯拉采用了基于传统搜索算法和基于神经网络两种形式,之后根据碰撞检查、舒适性分析、驾驶员接管可能性和与人的相似程度等对生成的轨迹打分,最终决定执行策略。
小鹏汽车全场景智驾的终极架构XBrain由深度视觉神经网络XNet 2.0和基于神经网络的规控XPlanner等模块组成。XPlanner是基于神经网络的规划与控制算法,有以下特点:
-
- 规则算法兜底长时序(分钟级别)多对象(多智能体决策,博弈能力)
强推理
上一版高阶算法和ADAS功能架构是分离的,由很多细分场景的小逻辑规控算法组成,而XPlanner则对规控算法架构做归一化。XPlanner算法背后还有大模型和仿真训练的大量极限驾驶场景支撑,从而确保XPlanner能应对各种复杂状况。
小鹏汽车XPlanner算法
图片来源:小鹏汽车