为什么“中间表达”对于自动驾驶来说非常重要？

在谈自动驾驶技术的时候，“中间表达”是一个经常出现的词。相较于熟知的激光雷达、车载摄像头、毫米波雷达等硬件，亦或是大模型、端到端、算法等软件层面的概念，“中间表达”这个词相对比较抽象，那中间表达到底是个啥？它有什么作用？

什么是中间表达？

要理解“中间表达”，我们可以从系统处理的信息特点一步步展开来看。在自动驾驶系统里，传感器提供的数据形式非常多样，摄像头输出彩色图像；激光雷达给出三维点云；毫米波雷达提供目标距离和速度信息；GPS和惯性测量装置给出位置和运动状态。这些原始数据虽然包含了场景所有的细节，但它们大而杂，难以直接用于决策。因此，系统就必须把这些原始输入转化成更便于推理和利用的信息。

为了实现这个目标，车辆要从各种传感器拿到大量的原始数据，这些数据本身并不能直接用来做决策，它需要经过一系列的处理，才会成为既准确又可用的信息。这些处理之后的、介于原始数据和最终驾驶决策之间的数据或信息，就是我们说的“中间表达”。

举个例子，从传感器图像和点云里识别出的一条车道线的位置、一辆后面车辆的相对速度和距离、一个红绿灯当前状态等都是中间表达。它们比原始像素和点坐标更具意义，但还不是最终的控制指令。它们相当于系统对眼前世界的“理解和总结”。通过把原始数据转换成这些表达，自动驾驶系统可以把注意力集中在对行驶有实际影响的环境要素上，减少对无关细节的处理和依赖。

中间表达有时也被称为中间表示，这与计算机科学中编译器里使用的中间语言概念有相似性，它们都是在原始输入和最终输出之间的一种中间层，用来提高整个流程的效率和可分析性。对于自动驾驶来说，一个好的中间表达必须能够在不丢失关键信息的前提下，使得后续模块可以更容易、更准确地做出预测和规划。

简而言之，中间表达在自动驾驶系统里担负着把原始数据加工成更有意义的信息的职责。它的形式多种多样，可以是二维场景的语义描述、也可以是三维空间里物体的位置信息、更可以是对未来行为的预测。它既比原始感知数据更精炼，也比最终的控制输出更接近对环境的理解。

中间表达在不同架构中的角色

自动驾驶系统有不同的实现架构，它们对中间表达的定义和使用也有细微差别。在传统的模块化系统中，中间表达会被显式地定义和传递。一个模块输出的中间表达会作为下一个模块的输入，这样的信息流是清晰的可观察的，这种设计也让自动驾驶系统更容易调试、验证和优化。

在这种架构里，感知模块输出的中间表达既包括静态特征（如车道线、障碍物位置），也包括动态特征（如物体运动速度、变化趋势）。这些信息通过标准格式传递给预测模块，由预测模块根据这些信息判断未来一段时间内场景的变化。紧接着，规划模块会根据预测结果确定车辆下一步安全且合理的轨迹。在模块化系统里，中间表达是约定好的信息形式，能让各个模块独立开发、独立测试。由于模块化设计可以检查某个环节的中间输出是不是出了问题，如果感知输出错误，那么预测、规划自然也会受到影响，因此，这样的设计也便于定位具体的故障点。

现阶段，端到端的应用非常普遍，这类系统试图跳过显式中间模块，把传感器输入直接映射到控制输出。这种方式在某些场景下可以减少手工设计的复杂性，但它也带来了可解释性差的问题。端到端系统的内部处理过程会被隐藏在一个整体的神经网络模型里，如果没有明确的中间表达，就很难得知系统是基于什么具体环境特征做出某个决策的。这种黑箱式的决策对安全验证和调试非常不利。

为了兼顾端到端学习的灵活性和系统的可解释性，有技术提出了“二段式端到端”的方法。在这种架构里，网络首先学习把原始输入转换成一种对驾驶决策友好的中间表达，然后再用这种中间表达生成控制指令。举个例子，系统可以先生成一张语义鸟瞰图和一组预测轨迹点作为中间表达，再用这些信息生成最终的控制输出。这种方式既保持了端到端学习的优势，又通过显式的中间表达提高了模型的可解释性和系统的可靠性。

中间表达的常见形式及作用

要更好地理解中间表达，可以看看它在系统中有哪些具体形式，以及这些形式为什么对系统有用。不同的中间表达承载的信息侧重点并不一样，但它们共同的目标是把传感器信息变成对后续任务更有帮助的数据。

一种常见的中间表达是几何语义类。这种表达描述的是环境的空间结构，像是道路的几何形状、车道线的位置、路缘的位置、车辆和行人的边界框等就属于这种表达。这些数据本质上回答了“周围有什么”和“它们在哪里”的问题。对于规划模块来说，理解这些几何信息是决定车辆可通行空间和路径的基础。

还有一种中间表达是语义理解类，像是交通标志、红绿灯状态、道路类型等信息就属于语义理解类的中间表达。这样的表达帮助系统在路径选择和行为决策时理解场景语义。如果系统知道前方是红灯而不是绿灯，它就会停下而不是继续前进，这种信息是语义性的，而不是纯粹的几何数据。

还有更高级的中间表达会包含动态预测类信息，它不仅描述当前环境，还可预测未来环境可能的变化。如系统会根据当前车速和运动方向来预测前方车辆在未来几秒内可能的位置。这样的预测结果会和概率结合在一起，成为规划模块做决策的重要参考。如果不对动态信息进行预测，车辆就只能根据当前瞬间状态做决策，会让自动驾驶系统失去对未来风险的洞察。

上述这些中间表达的设计和选用，并不是随意的，而是基于自动驾驶在实际道路上运行所需的核心判断能力所决定的。好的中间表达能让系统在复杂、动态变化的道路环境中做出更准确、更安全的决策。

为什么关注中间表达对自动驾驶很重要

理解了中间表达，就有助于深入认识自动驾驶系统的本质。不是简单把摄像头或雷达数据扔进一个大模型里，就能自动得出驾驶指令。系统需要把原始数据转化成能表达环境状态的信息，再基于这种表达去预测、规划和控制。中间表达不仅是工程实现的信息桥梁，也是性能和安全保障的基石。

在模块化设计里，中间表达让各个阶段的功能更清晰、更容易验证。如果某个表达在某种场景下表现不稳定，就可以针对这一环节进行优化。这种清晰的分层还利于和传统的控制理论结合，从而提高自动驾驶系统整体的鲁棒性和可控性。

在学习驱动方法中，明确的中间表达可以提供更丰富的监督信号，不仅可以让模型学会控制，还能让其正确理解场景。比如在训练阶段，人们可以用带有标签的中间表达作为额外约束，避免模型只关注最终控制结果而忽略对场景本身的正确认识。

中间表达的重要性还体现在自动驾驶的安全性评估上。因为自动驾驶系统需要通过大量测试和验证才能投入实际道路运营，明确的表达能让测试覆盖更多的极端情况，并且更容易诊断出系统在某类场景下的弱点。

最终的话

中间表达是自动驾驶系统内部非常核心的一类信息结构，它连接了感知层和决策层，是整个系统能理解环境并做出正确判断的关键。在不同的技术架构里，中间表达的形式和作用略有差异，但它们都承担着把海量、原始的传感器数据转化为对未来行为有意义的信息的任务。理解中间表达，有助于理解自动驾驶技术的设计逻辑、性能边界以及工程实现方式。随着自动驾驶技术的不断发展，中间表达的设计和优化依然是需要持续关注的重要方向。