为什么特斯拉还是识别不了白车？

使用自动驾驶辅助系统（Autopilot）的确需要小心，因为面对一些庞然大物它可能会一脸茫然，也可能走着走着“无故”拐弯儿撞树去了。

现在的智能汽车（还没法叫它自动驾驶）摄像头越用越多，处理器算力不得不随之越来越大，但安全问题仍没有解决。且不说特斯拉任何车型至今没有搭载激光雷达、高精地图，只用1个毫米波雷达的做法对错如何，单是摄像头也还有待优化。

这里有一个问题，特斯拉不是收购了一家专攻计算机视觉技术的初创公司吗？我们来看看其技术有啥进展？也试着帮特斯拉分析一下发现不了的“不是车辆本身的问题”。

1、自主研发+收购双管齐下

2020年4月，特斯拉发布了自主研发设计的芯片Tesla FSD，作为一款FPGA芯片，它集成了60亿个晶体管和2.5亿个逻辑门，每颗处理器内部有多达12个ARM A72 CPU核。特斯拉首席执行官埃隆•马斯克（Elon Musk）称之为世界上最强大的芯片，性能是之前用的NVIDIA（英伟达）方案的21倍，而且不只是性能强大，更关键是安全，任何一个模块挂掉，汽车都会继续正常行驶，故障率甚至比人失去意识的可能性还要低一个数量级。不过，至今还没有车型搭载。

当时，特斯拉也完成了对专注于开发计算机视觉技术的初创公司DeepScale的收购，为的是提高其算法能力。为此，特斯拉的深度学习网络HydraNet有了48个不同神经网络，每个时间步输出1000个不同的张量（tensor）即预测数；理论上，HydraNet可以同时检测1000个物体。看上去很酷。

2、特斯拉还是缺算力？

2020年6月，特斯拉的新专利Autopilot增强目标识别的有效方法称，可以提高摄像头捕捉的图像中物体识别的准确性和效率。这项名为“基于视野的自动驾驶车辆增强目标检测”的专利概述了特斯拉计划将“高计算要求”集中在“对自动驾驶更为关键”的目标上，同时对不太关键的图像数据进行降采样（DownSampling）处理。

问题之一：什么是不太关键的图像？问题之二：这样做的目的是什么？是不是为了降低数据处理的“高计算要求”？

不同主机厂传感器及算力比较

该专利显示：“可能有图像传感器位于车辆的不同位置。某些图像传感器，例如前向图像传感器，可以获得车辆正朝向的真实世界位置的图像。可以理解，这些图像的一部分可能倾向于描绘自动车辆导航等应用中重要的行人、车辆、障碍物等。”

在确定了车辆前方的物体类型之后，“可以从输入图像中裁剪出特定的视野。之后可以对输入图像的剩余部分进行降采样。然后，由对象检测器分析所输入图像的高分辨率裁剪部分和低分辨率降采样部分。”

解决什么问题呢？请教不只一位传感器专家，他们都认为，车载摄像头、激光雷达和毫米波雷达中，占用算力最大的是摄像头，其次是激光雷达。看来特斯拉专利要解决的是摄像头占用算力的问题。

3、看不懂的专利

特斯拉Autopilot

特斯拉利用8个摄像头来识别现实世界中的物体。摄像头获取的图像包括行人、其他车辆、动物或障碍物，这不仅对特斯拉车辆驾驶员的安全很重要，对其他人也很重要。专利称，重要的是，摄像头能够及时准确地识别这些物体。

特斯拉的驾驶可视化

可以看出，该专利首先是降采样输入图像，然后进行消失线处理、裁剪出全分辨率图像部分（特定视野），形成图像部分特征，最后与输入的图像特征组合成最终图像特征输出，以判断对象种类。

特斯拉专利框图

特斯拉专利演示

图中可见，删除重复元素后的最终图像比原图像素降低了，要是原图本身就像素很少呢？

4、什么是降采样？

降采样也叫缩减像素采样，在游戏界缩减像素是一种提高PC游戏视觉效果的特殊技术。它是让图像在比实际显示器高很多的分辨率下运行，相当于“欺骗”显示器显示一个超出其限度的超高分辨率画面，并缩小至适应屏幕的分辨率显示出来，以达到抗锯齿效果。其效果虽然好，但也有不可避免的缺陷，其运算相当复杂，而且还不支持所有硬件。另外，这种方法截图文件太大，经过压缩后品质都有缩水。

从数据角度看，降采样是降低数据采样率或分辨率的过程。例如，一个温度传感器每秒都向系统发送数据，如果用户在一小时内查询数据，将获得3600个数据点，这些数据点相当容易绘制出来；但是，如果用户要看整整一周的数据，将获得604800个数据点，且图形可能变得非常混乱。使用降采样器，可以将数据点数量从604800减少到168个。这是不是大大减少了算力占用？

降采样的主要目的有两个：一是使图像符合显示区域的大小；二是生成对应图像的缩略图。这样看来，数据采样率或分辨率的降低了，但像素也大大缩减了。我这里有一个模拟降采样（下图中的上图）的效果，似曾相识吧？

本来就是白色的车

不过，特斯拉的上述专利是否已经上车还不得而知，分析起来怎么看都解决不了原来事故的难题，反倒像是该由它来背锅。

5、AI学习还不够

马斯克曾提到，Autopilot的核心代码和3D标注正在完成。一旦完成，其全自动驾驶（FSD）套件就可以有效地推出更多功能。3D标注是FSD套件的一个组成部分，因为它允许神经网络更有效地处理信息，并可以帮助特斯拉车辆了解道路上罕见和不可预见的事件。

任何曾经坐车的人都知道，期待意外是避免事故的最好方法之一。特斯拉称，Autopilot拥有超过30亿英里的“经验”，所看到的东西比任何人都要多得多。

3D标注和精确物体识别的重要性对于特斯拉最终推出“功能齐全”的全自动驾驶套件至关重要。特斯拉通过识别道路上可能成为车辆和安全行驶障碍的物体，不断改进使用Hardware 3的车辆的驾驶可视化效果。不过，到目前为止，特斯拉除了优化汽车的摄像头和传感器的有效性，还需要更准确地描绘未来的道路上会出现什么意想不到的物体。

器件型号	数量	器件厂商	器件描述	参考价格	更多信息
ADA4062-2ACPZ-R7	1	Analog Devices Inc	Low Power JFET-Input Dual Op Amp	$2.42	查看
V23047A1024A511	1	TE Connectivity	SPECIAL RELAY-SAFETY RELAY, DPST, MOMENTARY, 0.029A (COIL), 24VDC (COIL), 700mW (COIL), THROUGH HOLE-STRAIGHT MOUNT, ROHS COMPLIANT	$10.34	查看
ADUM1250ARZ-RL7	1	Rochester Electronics LLC	SPECIALTY INTERFACE CIRCUIT, PDSO8, ROHS COMPLIANT, MS-012AA, SOIC-8	$5.61	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ADA4062-2ACPZ-R7

Analog Devices Inc

Low Power JFET-Input Dual Op Amp