埃隆·马斯克一直在诟病激光雷达的成本,现在激光雷达便宜的竞争者来了,他应该点赞哦。不过,特斯拉至今没有搭载,咋的了?

 

 埃隆·马斯克的特斯拉打死也不搭载激光雷达(LiDAR)自有其道理,但也没能找到让尚处于自动驾驶起步阶段的车辆发现未经机器学习训练的庞然大物的方法,以至于因“视而不见”而事故不断,当然,无端突然加速又是另外一回事了。事实上,近年来马斯克爱用的摄像头方案已有了新的进展,引起了主机厂和 Tier 1 极大的关注和采用,它就是立体视觉(StereoVision)技术,也有人叫它 3D 感测或双目摄像头,当然还有多目摄像头。今天就来聊聊这个双目摄像头的一些事儿。 

 

1. 特斯拉黑客的发现

谈到一种技术,人们总要看电动汽车的领头羊特斯拉是怎么做的,双目摄像头自然也不能例外。

 

最近,特斯拉黑客@greentheonly 在 Autopilot 代码中观察到 Tesla Semi 卡车的 10 个摄像头设置,发现了 Semi 可能会安装 10 个摄像头的提示。他说:“Semi 的第十个摄像头被列为“右中继器(Repeater)2”,这是相当有趣的,在 Class 8 卡车位于中央驾驶位置。车辆控制器‘HW3.2’也提到了 Semi 的 10 个摄像头设置。所以只有一个右中继器是不够的。”不过,上述发现没有涉及双目立体视觉之类的摄像头。

 

此前,Model 3 车主 Erik J. Martin 曾路遇一辆路测的 Semi 原型车,它配备了 26 个摄像头。特斯拉工程师当时表示,量产版 Semi 车型不会配备那么多摄像头。那么,除了 Green 发现的 10 个摄像头,另外 16 个又是什么样的摄像头呢?其实,早在 2016 年,在 Model S 上测试的特斯拉 Autopilot 2.0 硬件就可能有“某种双目镜头相机,在驾驶员一侧有一个吸盘支架,看起来像一副小望远镜。支架下面是一个非常大的中心镜头,看起来很像警车的行车记录仪。”驾驶员侧的大镜头是一个较小的单元,看起来像是面对路边。这些附加摄像头都没有成为 Model S 或 Model X 当前 Autopilot 传感器套件的一部分。为什么?最后会分析。 

 

特斯拉 Autopilot 2.0 硬件曾有双目摄像头 

 

2. 地主家有没有余粮啊

就目前来说,特斯拉只能算新能源领域的豪车,尚无法与传统意义上的豪车相提并论。看看那些典型豪华车:奔驰 S 级和 E 级、宝马 7 系和 5 系、雷克萨斯 LS 系列、路虎 Discovery Sport SUV、捷豹 XFL、XE,都搭载了双目摄像头。
 

双目摄像头已上路


 目前,全球主要双目系统供应商有德国大陆、博世、韩国 LG、日本日立和日本电装,国内也有中科慧眼等双目相机头部企业,这些厂商的主要工作是使双目相机能够具备较好的障碍物分类能力。  

 

两个“眼睛”的双目摄像头


 那真正的豪华车为什么与“新贵”一样不使用测距很精确,视角也很大,覆盖面更广的 LiDAR 呢?最主要的原因还是成本太高,豪华车也不能不计成本呀!

 

“现在,L4 自动驾驶所需 64 线 LiDAR 的成本约为 8-10 万美元,而在改装第一代自动驾驶时大概花了两百万人民币。”一位业内人士透露。其中,LiDAR 是公认最花钱的地方之一。分辨率底很多的 16 线 LiDAR 也要约 4 千美元。一些初创公司如 Oryx Vision、Oryx Vision、Quanergy 都在研发替代旋转式 LiDAR 的全固态 LiDAR,但是,即使这样,后者的价格还是在近千美元,况且成熟度有待考量。性能好的 LiDAR 与双目摄像头相比不相上下,而价格却一个是“很高”,另一个是“中等”。

 

Innoviz 联合创始人兼 CEO Omer Keilaf 也承认:“针对 L3 自动驾驶,主机厂通常只愿意为 LiDAR 付 1000 美元;对于 L2 车型,他们只愿付 400 到 500 美元。”面对激烈的市场竞争,哪家主机厂会不计成本为车辆增加更多功能呢?

 

3. 实锤还要看性能

现代汽车中使用的各种传感器都是为了安全相关的感测目的,其实并无优劣之分,各有各的用处。自动驾驶车辆通常部署多个传感器系统用于环境感知,LiDAR、雷达和摄像头模块最受欢迎。这些传感器系统协同工作,提供对外部世界车辆、行人、骑自行车的人、标志等的综合表示,其重叠功能也会产生冗余,确保在一个系统出现故障时,另一个系统会填补这一空白。来看看三种方案的对比。

 

·雷达:是大多数汽车传感器套件的一个组成部分,也是一种成本相对较低、可靠且经过时间考验的技术,能够在合理距离内探测到较大的物体,并且在弱光和恶劣天气情况下表现良好,这也是其在汽车领域的强大优势。然而,由于很难探测到较小的物体并识别已探测到的物体,因此雷达只是解决方案的一个组成部分,即主要感测方式(LiDAR 或摄像头)的重要补充。

 

·LiDAR:通过测量激光信号从物体上返回到本地传感器所需的时间来测量距离。它使用与声纳相似的原理,通过发射激光脉冲并测量这些信号从物体上弹回接收器所需的时间来确定车辆与环境之间的距离。

 

·双目摄像头:成对儿使用的摄像头(即立体视觉)也可提供距离估计,它基于从相邻的两个视角(即两个摄像头)获取同一环境的两幅独立图像来估计距离,是视觉信息的三角测量结果。下图显示了双目摄像头的简单原理。 

 

利用两个摄像头视差变化精准判断距离


 与人类双眼成像原理相同,利用左相机和右相机同步对场景进行成像,近处物体在左右眼之间的位置变化比较大,而远处的物体在左右眼中的位置差异较小。这就是视差,坐标系中的每一点距立体相机的距离都可以通过视差来转化。

 

由于立体摄像头有两个“眼睛”,能够利用一个摄像头拍摄的图像中的差异来检测每种类型的障碍物,从掉在道路上的物品到人、动物和道路边界,并可以确定它们的大小和到它们的距离,实现物体、车辆和行人检测。LiDAR 与双目摄像头的优缺点在下表中一目了然。 

 

LiDAR 与双目摄像头的优缺点


 比起 LiDAR,双目摄像头最大的优势是成本,价格在几千元人民币。另外就是不用裸露在车外,维护成本低。此外,与成为豪华车首选的双目摄像头相比,LiDAR 车载功能单一,无法识别颜色(刹车灯)。双目摄像头不仅能精确测量距离,还可以识别刹车灯、车道线、路旁交通标志等。


中科慧眼 COO 孟然表示:“随着更高等级自动驾驶系统的技术成熟和市场应用,双目天然的测量精度优势,加上干扰较少,可以使其在未来的发展中生命周期更长。

 

立体视觉算法结合立体摄像头的实时高精度深度图(冷色调表示远,暖色调表示近)
 

4. 特斯拉还是“比目鱼”

我们人类闭着一只眼也能感受到深度,因为视野中包含了很多深度相关的语义线索,例如物体大小、消失点等;自然界中还真存在依靠单目感知的生物,例如比目鱼。其实比目鱼也是双目,只不过两眼离得很近罢了。

 

特斯拉有点像它,那为什么它敢以目前的单目摄像头为主传感器呢?因为单目成本最低,所以才把重点放在单目上。之所以敢用,是因为它用实践证明了单目可行和好用。

 

众所周知,目前主流摄像头只能提供 2D 图像信息,缺少深度。使用摄像头作主传感器的主要难点就在于深度恢复。而自动驾驶的路径规划需要有 3D 道路信息和 3D 障碍物信息。如果摄像头想成为主传感器,就必须能够提供准确的深度感知。从特斯拉公开的资料看,其深度恢复做的相当好,为感知、定位和规划提供了坚实的基础。不过,这样做必须让系统训练有素,虽然它有海量数据可以用来训练深度模型,但实际上仍无法保证能正确处理所有场景。所以,一旦出现深度预测失准,出现训练的“漏网之鱼”,就会错误估计道路环境和障碍物位置,可能车毁人亡。

 

事实上,LiDAR 和 HDMap(高精地图)都可以可以作为额外的安全保障,但为了宽慰消费者和投资者,马斯克必须控制成本,抛弃 LiDAR 的理由主要是太贵。马斯克还有虚晃的一枪:2020 年底就实现完全自动驾驶,但遇到实操时却说:Autopilot 只能作为 L2 使用,出了事故还是用户背锅。2020 年 9 月,加拿大一车主就被这漂亮的甩锅砸中,因“滥用”Autopilot 超速而受到犯罪指控。

 

被指控车辆貌似“无人”驾驶
 

5. 特斯拉还玩不转立体视觉?

摄像头越用越多,怎么选择?特斯拉任何车型至今没有搭载双目摄像头,这一直是个谜。
使用单目摄像头获得距离信息,必须先识别目标。而双目摄像头需要对每一个像素点进行立体匹配,需要超大运算量,但算法简单,适合用 FPGA 来完成,佐思产研研究总监周彦武认为:“FPGA 不是特斯拉这种小厂能玩得转的。”

 

2020 年 4 月,特斯拉收购了一家专注于开发计算机视觉技术的初创公司 DeepScale,以提高其算法能力。特斯拉的深度学习网络 HydraNet 包含 48 个不同的神经网络,每个时间步输出 1000 个不同的张量(tensor)即预测;理论上,HydraNet 可以同时检测 1000 个物体。

 

同时,特斯拉还发布了自主研发设计的芯片 Tesla FSD,作为一款 FPGA 芯片,它集成了 60 亿个晶体管和 2.5 亿个逻辑门,每颗处理器内部有多达 12 个 ARM A72 CPU 核。马斯克称之为世界上最强大的芯片,性能是之前是用的 NVIDIA 方案的 21 倍,而且不只是性能强大,更关键是安全,任何一个模块挂掉,汽车都会继续正常行驶,故障率甚至比人失去意识的可能性还要低一个数量级。不过,至今尚无下文,没有车型搭载。 

 

6. 半导体供应商和主机厂紧锣密鼓 

2020 年 8 月,在日本市场销售的新款斯巴鲁 Levorg 的高级驾驶辅助系统(ADAS)搭载了 FPGA 头部企业 Xilinx 汽车认证 Zynq UltraScale+多处理器片上系统(MPSoC)。

 

 

双目组件上的 FPGA 已在量产车中发挥关键作用 典型 ADAS 具有多种功能,包括自适应巡航控制、车道保持辅助和摇摆警告、碰撞前感测和发动机油门控制。斯巴鲁的专有 ADAS 称为 Eyesight,基于立体视觉技术,2020 和 2021 年几款车型都将采用。


立体视觉系统生成两种类型环境数据,一是基于高程(elevation)测量的复杂驾驶环境密度图,二是由参数化车道、跟踪长方体和行人组成的一系列几何元素。这些计算元素既耗时又密集。为了根据接收到的环境数据进行实时决策,系统需要大量的数据带宽和处理能力,因此并行性是必须的。这就是 Xilinx UltraScale+SoC 的用武之地。


Zynq UltraScale+MPSoC 为 ADAS 提供了关键功能,Xilinx IP 核上的高精度 3D 点云有助于产生立体视觉;Xilinx FPGA 进行高速并行视频和图像处理,算法处理由 Arm Cortex-A53 处理,实时事件由 Arm Cortex-R5 处理。 

 

汽车级 Zynq UltraScale+MPSoC 框图


斯巴鲁首席技术官 Tetsuo Fujinuki 表示:“立体摄像头是斯巴鲁 ADAS 应用的核心。与普通方法不同,我们新一代系统采用的图像处理技术可扫描立体摄像头捕捉的所有东西,并创建高精度 3D 点云,使我们能够提供先进的功能,例如在交叉口进行碰撞前制动,在高速公路和交通拥堵时协助放手驾驶。”


他补充说:“由于 Xilinx 汽车器件具有内置功能,使我们能够满足严格的 ASIL 要求,因此它们无疑是实现斯巴鲁新 ADAS 视觉系统的最佳技术。” 

 

7.ADAS 双目感知进入 AI 时代

双目系统成本比单目系统要高,但尚处于可接受范围内,且与激光雷达等方案相比成本较低,但计算量级的加倍是难关也是突破口。


过去,传统双目摄像头不能区分障碍物类型,仅仅是将前方障碍物检测或测量出来,在实际应用中难以满足要求。现在,利用先进处理器和人工智能算法,双目摄像头已能够具备较好的障碍物分类能力和量产实用性。值得我们期待的是,双目系统的门槛将正在逐步降低,未来将进入更多车型。