加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 01、占据网络能否代替激光雷达?
    • 02、为什么不用激光雷达?
    • 03、如何获得一个纯视觉占据网络?
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

占据网络上车,极越离激光雷达更远

01/17 12:30
2331
阅读需 10 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

作者 | 朱世耘,编辑 | 章涟漪

现在很多同行把城市NOA搞成了营销。”集度CEO、极越CEO夏一平说道:“开一条路不叫开城。极越的开城标准是至少覆盖用户60-70%的驾驶场景,至少90%的高频场景。2024年,极越会完成200+城市的开城。

以覆盖超60%驾驶场景为标准的开城,极越的信心来自于“BEV+OCC+Transformer”组成的纯视觉感知完整体系——“B.O.T三向箔”。

1月14日,极越开始为01车型进行首次整车级大版本OTA全量推送升级,V1.3包含了OCC(Occupancy Networks 占据网络)技术上车在内的通用视觉能力进化、SIMO完全融入文心一言4.0在内的通用语音能力进化、冬季模式等安全和生态服务等5大类、超400个功能点升级。

占据网络上车是其中最大的亮点。极越官方表示:通过“B.O.T三向箔”,极越纯视觉方案的3D精度能达到厘米级,比肩甚至超越激光雷达;对运动障碍物的速度识别精度也控制在0.1米/秒误差范围内。

信仰纯视觉的极越,离激光雷达越来越远。

01、占据网络能否代替激光雷达?

极越官方向《赛博汽车》表示,此次更新的1.3版本占据网络的应用主要是集中在检测静态障碍物和硬隔离。对于车辆和行人的动态障碍物检测,目前还是使用BEV。“但很快我们将提升occ的覆盖类别,前提都是以大量的测试和数据来驱动,保证安全的前提下进行切换。"

所谓占据网络,是通过映射将环境切分为众多格子,并确定哪些格子是被占据的,哪些是空闲的。

依据网络的能力,格子的精度可以是米级,也可以是厘米,甚至更精细。

同为机器视觉算法,BEV对障碍物的检测和识别,必须基于“学过的内容”。而占据网络则可以类比激光雷达,通过对格子内的物体进行分类,来直接给出物体的几何结构,从而指导后续的路径规划。

而且,相比激光雷达,视觉出发的占据网络可以更好将3D的几何与语意信息相融合,而不需要进行激光雷达和相机的时间,外参对齐等工作。

极越官方表示,极越的占据网络体素(格子)甚至可以小于厘米级,将2D BEV转换为3D,来判断驾驶空间里是否被占用,从而发起绕行。

目前,在道路参与者和道路的静态BEV当中,极越已将占据网络的距离信息作为真值来使用。

场景上,极越占据网络目前在遇障刹停,无感绕障,远距离硬隔离(对于不可通行的障碍物,水马等主动远离,提供足够的心理安全感)发挥作用。

不过,由于占据网络的三位表达方式信息密度低,必须在低分辨率特征图上操作,最后再由反卷积补全分辨率,导致大量的算力空耗。

因此,目前行业内在占据网络的应用上主要在于对BEV进行补充,如异形障碍物,离地面较远的高处的障碍物检测。

02、为什么不用激光雷达?

尽管认为自己走在正确的道路上。但在占据网络上车的沟通会上,百度智能驾驶事业群组(IDG)首席研发架构师,IDG技术委员会主席王亮,还是花了相当的篇幅来解析其去激光雷达的底层逻辑:资源是有限的。

成本当然是第一推动力。在王亮看来,受制于先天的器件和成像原理,激光雷达降本后的价格上限,也会是相机的5-10倍,且当中很多的移动部件的耐久和可靠性存疑。

仅作为传感器,激光雷达也不是完美的部件。一方面,其会产生难以消除的伪影;另一方面,目前主流,和刚刚官宣的未来激光雷达,在分辨率、帧率和点频的成像性能方面,仅是800万摄像头的1/160和1/20,差距巨大。

从实践来看,目前绝大多数激光雷达的采集频率只有10Hz,特斯拉的占据网络输出可以达到和相机相同的36Hz,因此在高速环境或对快速移动物体感知方面,上限更高

从技术趋势来看,端到端输出的大模型是未来的主流已渐成行业共识。“减少激光雷达的模型,可以给视觉模型多几千万的参数。”王亮表示。

而且低上限的激光雷达会抢夺高上限视觉感知的资源。王亮表示,百度2019年意识到激光雷达和视觉放在一起时,视觉技术发展不了。“工程师还是会用身体投票,他在巨大业绩压力下会选择做简单的事情,会选择用激光雷达解bug,没有人愿意花这么多精力死磕视觉方案。当时我们做了一个决定,把激光雷达拿掉,定了同样的业务目标,让做视觉的算法同学死磕这类问题。”

“如何用长期主义来投资一个技术方案?任何企业的资源都是有限的,我们如何把更好的利用资源,集中在一个技术方向上,把它打透。最关键的是这个方案日后的演进速度是不是更快,它的算法上限是不是更高,如果有这样的方案,我们愿意All in它。”王亮在演讲中表示。

03、如何获得一个纯视觉占据网络?

目前,极越的“B.O.T三向箔”是想了多任务统一学习,包括整个三维世界的几何、位置、深度、高度信息和语义信息,并自动将几何和语义信息聚合输出三位信息框或占用体素。

对于占据网络的语义理解,王亮表示已标了近一百类物体,以及“其它类”。“从OCC设计理念上肯定追求的就是去白名单化,希望可以涌现障碍物识别或者通行空间识别的能力。”

王亮透露,极越在研机器学习的跟踪和预测。“例如原来速度预估还需要做速度差分,几帧之间的障碍物用数学公式算速度,这个速度很难收敛。现在通过大量的数据,可以把速度和未来运动趋势都做学习。”下一版极越感知网络的输出或许将包括几何结构、语义理解、实例分割和速度&轨迹预测。

不过,占据网络除在端侧算力消耗大之外,巨大的学习成本也是其核心技术门槛之一。

在百度Apollo的技术生态中,有超过6000万公里的高质量的Robotaxi原始数据积累;百度AI超过170亿参数的视觉大模型、高标准的自动化标注产线实现日均产能过百万(帧)、高质量标注数据BEV+OCC精标训练数据过亿(帧);同时,百度和极越已基于近2EFLOPS高算力训练集群,实现模型高效训练、每周快速迭代。

王亮表示,除极越的量产车之外,百度的高精地图采集车和Robotaxi也是占据网络学习数据的重要来源。

我通过(地图)采集车上学2D、3D联合的标注,把激光雷达能力通过这个过程融入到纯视觉系统里。

一开始用的是百度Robotaxi超过六千万公里训练的数据,积累的数据,都是全量落盘,各种场景,几十个城市的数据,作为热启动。

这么多信息要训练充分,背后需要很多算力,目前投入到跟极越项目上的卡数超过五千张(A100或A800),每周级别做迭代。

此外,百度地图的采集车也成为极越开城的先头部队。“我们(智驾)跑的城市,(百度)地图在几个月之前已经跑过一遍,而且这个数据也是全量落得。”

占据网络上车,是极越视觉能力的一次大迭代,但并非终点。王亮表示正在构建视觉建图能力,通过底层原理的改变,替换现有的车道线和红绿灯极检测,推动极越的纯视觉从有图走向轻图,甚至无图的未来。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
AD7415ARTZ-0REEL7 1 Analog Devices Inc Digital Output Temperature Sensor

ECAD模型

下载ECAD模型
$2.7 查看
DS18B20Z 1 Rochester Electronics LLC DIGITAL TEMP SENSOR-SERIAL, 12BIT(s), 0.50Cel, RECTANGULAR, SURFACE MOUNT, 0.150 INCH, SOIC-8
$9.21 查看
LM60CIM3/NOPB 1 National Semiconductor Corporation Analog Temperature Sensor, ANALOG TEMP SENSOR-VOLTAGE, 4Cel, RECTANGULAR, SURFACE MOUNT, PLASTIC, SOT-23, 3 PIN
$1.25 查看

相关推荐

电子产业图谱

聚焦智能汽车和自动驾驶,关注汽车技术进步和商业文明冲突,志与汽车产业一同成长。公众号:赛博汽车