自动驾驶汽车中的人工智能(AI)应用已经很常见,从能够识别行人并阅读交通标志的深度卷积神经网络,到可以让 Waymo 自动驾驶汽车安全通过交叉路口的算法,先进的机器学习无处不在。相比之下,令人诧异的是目前的传感器仍然不够智能。

 

传感器的短板

不过,不要误解我的意思,目前的传感器通过传统方法已经能够提供惊人的性能。高分辨率数字摄像头正在变得越来越便宜,并且在尺寸和可靠性方面也能够满足工程师的理想要求。雷达的探测范围和分辨率也一直在提高。激光雷达(LiDAR)虽然价格昂贵,但却提供了令人难以置信的 3D 环境感知能力,解锁了各种自动驾驶应用。

 

但是,所有这些传感器,通讯大多是单向的。一旦摄像头定好位,它就会每 33 毫秒发送一张它所指向的环境图片,直到被命令停止运行。顶级的机械旋转 LiDAR 也是按预设方向持续捕捉并传输数据流。目前的雷达也与此类似。

 

 

对比人类驾驶员“捕捉”周围环境的方式,人类会不时扫描道路,寻找可能进入道路的物体。当接近十字路口时,人类可能会向每个方向查看,观察是否可以安全通过。人类如果观察到正在路边奔跑的孩子,可能会把注意力集中在他们身上,以防突发情况需要紧急停车。真正智能的自动驾驶汽车不仅需要能够从预设的扫描模式中获取信息,还要能够将其信息收集重点“聚焦”在环境中最相关的区域。

 

虽然在传感器中嵌入人工智能本身具有挑战,但其潜在的效益是巨大的。用最高效的方式收集数据,可以在降低计算量和材料成本的同时提高性能,这是 Level 4 级和 5 级自动驾驶走向大众的迫切需求。

 

机器学习

机器学习和人工神经网络的研究,始终要求与人类的认知进行比较。因此,近年一种以人类认知经验为核心的概念正受到越来越多的关注。据麦姆斯咨询报道,近期一篇关于“残差注意力网络(Residual Attention Network)”的论文,采用堆叠残差注意力模块在标准物体识别基准上实现了最先进的性能。

 

这一突破性研究真正令人惊叹的是,他们的网络层数不到下一代最佳方案的一半。传统的卷积神经网络都是平等地对待每个像素,无论其包含什么内容。相比之下,在这个残差注意力网络中,每个注意力模块都执行两项任务:决定看哪里,以及那里有什么。这种架构可使网络只关注每张图像中最重要的元素,使其相比竞争方案更具优势。

 

“Show, Attend and Tell”算法

“Show, Attend and Tell”算法展示了另一种非常令人印象深刻的方案。以前的工作都是只关注图像一次,然后使用最后一层的全连接层得到图像最有用的信息。这样的缺点就是在描述图像的时候丢失了很多有用的信息。

 

这项研究中所提取的这些矢量来自于低级(low-level)的卷积层,这使得解码器可以通过选择所有特征向量的子集来选择性地聚焦于图像的某些部分,也就是将注意力(Attention)机制嵌入。Attention 机制可以学习到类似于人类注意力一样的信息。

 

网络神经元

还有一些研究使用人工神经网络来选择何时使用哪个传感器。在近期发表的一项研究中,研究人员为他们被称为“传感器转换注意网络”开发了一种架构:将不同类型的传感器引入一个共同架构的一种神经网络系统。这项研究探讨了他们的算法能够评估来自每个传感器的噪声水平,并忽略它确定为不可靠的传感器。

 

举例来说,比如从电影中转录语音。如果音频非常清晰但视频很模糊,则可以完全忽略视频,通过将音频馈送到长短期记忆神经网络(LSTM)来获得最佳性能;如果音频严重失真,但是视频清晰,则可以通过使用卷积神经网络尝试读取演讲者的嘴唇来提高性能。获悉哪种传感更可靠,是建立像人类一样注意力算法的重要一步。

 

需要更进一步的研究

虽然这些研究成果很喜人,但它们对人类注意力的模仿方式还不够完善。当人类关注某个物体时,会用眼睛追踪它。这是因为我们的视觉在视野中心最好,而忽略边缘附近的区域。可以想象传感器也以相同的方式运行,让它们更多地扫描周围环境中的关键区域,而对不感兴趣的区域执行快速、粗略的探测。

 

关于这个问题的一项非常重要的研究由 Larochelle 和 Hinton 发表于 2010 年。受人眼功能的启发,他们创建了一种模型,在该模型中,神经网络会选择输入图像中需要查看的区域。这些区域将以高分辨率传送,而周围区域的信息将模糊处理。通过结合这些类似人眼的“中央凹视”,可以看到神经网络以接近人眼的方式扫描图像。

 

虽然上述大部分研究都集中在摄像头成像上,但对于自动驾驶传感器来说最有潜力的是固态模拟雷达。传统的数字波束成形雷达将宽泛的信号发射到周围环境中,然后在仔细分析反射回波的基础上,尝试识别环境中的目标。

 

相比之下,固态模拟雷达将所有能量集中在一个非常窄的波束中,像 LiDAR 一样对周围环境进行扫描。然而,与 LiDAR 不同的是,雷达通常使用一系列调制脉冲来测量其视场中物体的位置和速度。这种方案提供了无与伦比的探测范围、角分辨率和信噪比。当然,它也提出了一些挑战和机遇。

 

时序就是一切

固态模拟雷达面临的一个主要挑战是确定所要使用的脉冲序列。脉冲序列的参数会影响最大测量范围、最大可测量速度以及两者的分辨率。这些限制是由物理定律决定的,因此增加其中一个就会不可避免地影响另一个。

 

对于拥堵的市中心,需要尽可能高的分辨率,因为在低速行驶时,距离非常远或运动非常快的物体影响不大;相对来说,在高速公路行驶时,需要更大的探测范围,以便尽早警告驾驶员前方的障碍物,并需要具有足够高的最大可测量速度,以捕捉迎面驶来的车辆。有选择地最大化雷达的性能需要算法的支持,这些算法了解它们的状况,并能决定如何最好地探测、理解周围的环境。

 

 

这类雷达的另一个挑战是扫描需要时间,通常在几个毫秒的量级。虽然这听起来可能很短,但在每个方向上都以高分辨率扫描则需要花费太长的时间,这对实现自动驾驶来说不太实际。与上述注意力机制神经网络非常相似,这样的系统必须能够基于先前的扫描对其环境的不同区域进行优先级排序。

 

Metawave 正在这个方向上努力

汽车雷达初创公司 Metawave 正致力于开发硬件和软件来解决这些问题。Metawave 基于超材料的模拟波束成形雷达,可以在其他传感器无法企及的距离捕捉信息,不过,前提是它需要将“注意力”集中于最紧要的目标。虽然 Metawave 目前的研究主要集中在雷达领域,但这些技术还可以在固态 LiDAR 甚至摄像头应用中实现新的性能水平。

 

据麦姆斯咨询此前报道,Metawave 的先进雷达已经通过演示验证,首次实现 300 米外的汽车及其速度探测,以及最远可达 180 米外的行人和自行车探测。通过与 Infineon(英飞凌)77GHz 雷达芯片组(包括 RXS8160 MMIC 和 AURIX 微控制器)以及 NVIDIA(英伟达)AI(人工智能)处理引擎相结合,Metawave 的开发测试平台性能相比目前现有的汽车传感器提升了一倍以上。

 

像所有新兴技术一样,很难预测这个领域在五年内的发展方向。尽管如此,我相信纯研究领域兴起的“注意力”概念,将成为实现 Level 4 级和 Level 5 级自动驾驶不可或缺的关键。对于大规模生产的自动驾驶汽车来说,更是如此,成本敏感型制造商会寻求使用更高效的算法,来降低硬件成本。