• 正文
  • 相关推荐
申请入驻 产业图谱

为什么把VLA直接放上自动驾驶汽车没那么容易?

09/24 09:53
934
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

 

自动驾驶领域,经常会有技术提出将VLA(视觉—语言—动作模型)应用到自动驾驶上。VLA的作用就是把看、懂、决策三件事交给一个大模型摄像头看到画面,模型用“视觉+语言”去理解场景和意图,最后直接输出要不要转向、踩刹车这样的动作。这个模型的好处显而易见,模型能用更丰富的语义理解来辅助决策,理论上更灵活、更接近“人怎么想就怎么做”的需求。但从实际落地和安全角度看,直接将自动驾驶汽车的行驶全部交给VLA,又有很多现实的难点和坑。

边缘场景或将难以理解

大模型是靠大量数据学会“看”和“说”,但自动驾驶强调的是不能能“看”,更要能做对事。交通环境中常见的场景很容易被模型学会,但真正危险的往往是那些如临时摆放的异物、非常规施工标识、突然冲出来的行人、凹陷或湿滑的路面、以及复杂的多车交互等不常见的极端情况。把这些长尾场景都采集齐全几乎不可能,尤其是要配套高质量的动作标签(也就是在那些场景下“应该怎么做”)更是难上加难。

对于边缘场景,有些技术方案提出使用仿真帮忙补样本,但仿真和真实世界总有差距。光照、材质、行人行为建模都很难完全拟合现实。有时在仿真里“得分高”的策略,也可能利用了仿真里的漏洞,如果这些策略到了真车上反而会危险。对于大模型学习还有一点不容忽视,用于训练控制的标签必须是物理可实现的。不是所有人为操作示例都适合直接当作监督信号;一些看起来“聪明”的人为反应其实依赖于人类的直觉和肉体补偿(比如猛打方向时人的身体补偿),模型直接模仿这些反而可能超出车辆动力学极限。

因此单靠堆数据和堆算力,无法把所有可能的危险都消灭掉。更可行的做法是把VLA用来补强语义理解和异常检测,而不是把完全的控制权一次性托付给它。把它当成能给出“高层建议”的大脑,而由经过验证的低级控制器来做最终执行,会安全得多。

能想出来不等于能做得到

语言模型擅长推理和生成,但车辆有明确的物理约束。一个优秀的驾驶“想法”可能需要的转向角、加速度或车体倾斜等要求,有些在现实中可能根本实现不了。若不把这些物理约束强行嵌入到输出环节,模型又有可能提出不可行或危险的轨迹。对于这类问题,要么在模型输出端加上物理约束或后验校正,要么把动作空间离散化让模型只选“有限个可行动作”。前者可以保持流畅性但增加工程复杂度,后者虽然简单但牺牲了自然和效率。

还有就是时序问题。自动驾驶的控制回路有严格的频率和延迟要求。若模型在算力受限的车端运行太慢,或者把重要推理放在云端遇到网络波动,决策就会基于旧画面来执行,这反而会带来驾驶风险。那种“决策滞后于现实”的情况,比决策错误还危险。很多常见的解决思路是“快思维+慢思维”架构,小而稳定的模型在车端做基础感知和闭环控制,复杂的语义推理和策略优化放在后台或云端,只在非关键时刻下提供建议。但这要求架构设计非常严谨,必须保证背景推理的结论不会在关键时刻破坏即时控制路径。

训练端到端系统常用的方法之一是强化学习或带有奖励的优化。若奖励函数设计不当,模型可能学到在训练或仿真中高分但现实里危险的策略。比如会利用某些规则漏洞快速完成任务,或者在仿真里靠冒险动作取胜。解决这类问题需要把安全约束显式纳入训练目标,或采用混合监督(让模型既学专家示范也学安全约束),还要在训练里引入更多对抗和扰动场景。但这些措施会显著抬高训练成本和验证复杂度。

其实对于模型来说,算力和成本也是需要直面的问题,更大的模型意味着更贵、更耗电、更热、需要更强的散热设计,这直接影响整车成本和可靠性。这就要求厂商采用“既省钱又靠谱”的折中方案,而不是盲目堆模型参数。

黑箱很难过审,责任也难界定

传统自动驾驶系统将感知、预测、规划、控制等各模块分得非常清晰,各模块可以单独验收、打桩测试、形式化验证。端到端的VLA可以把这些环节耦合在一起,提升效率,但出问题时也很难追根溯源。监管机构、保险公司和法律体系更信任可审计、可重放、可证明的决策路径。一个不能解释为何在某一时刻紧急转向或未能刹停的黑箱模型,在面对事故调查和责任认定会极为不利。

这就要求必须设计日志机制、关键中间态保存和可回溯的决策证据。把VLA用于生成解释性文本(例如“由于前方有临时施工牌,我建议减速”)是一条可行路径,但这种解释必须真实可验证,不能只是后置拼凑的“借口”。此外,形式化安全约束和保证性测试在端到端系统里更难做,需要新的验证方法论和更多的试验数据,短期内法规适配也是一道门槛。

视觉好用但不会在所有场景都看清

VLA的名字里有个“V”(视觉),这意味着相机会是主传感器。相机能提供丰富的语义信息,但在弱光、逆光、雾霾、雨雪或被遮挡时,它的表现会明显下降。雷达激光雷达在测距和穿透性上有优势,但它们给出的信息不是“语义友好”的,对于“这是谁/这块牌子意味着什么”的解释不如视觉直观。把视觉的语义理解和雷达/激光雷达的物理量整合起来,是一件技术上复杂但很有必要的事。

此外,同样的视觉目标在不同城市或国家外观可能差别很大,标准交通标识、路面材质、车辆样式都不同。模型的跨域迁移需要大量本地化数据和细致的微调,不然在新环境中容易出问题,就像特斯拉FSD在国内使用初期,其表现也并不是很好。简而言之,要让大模型做到“放车就能跑遍全世界”,现阶段还不现实。

如何安全地把控制权还给人?

VLA最大的优势之一是能用自然语言和人互动,这对用户体验很重要。但自然语言含糊和歧义性极高。用户可能给出矛盾或不完整的指令,系统必须在理解意图与遵守安全约束之间平衡。还有一个更现实的情况是,系统在遇到边缘场景时,如何安全地把控制权还给人?人被动从乘客身份到主动接管需要时间和注意力切换,如果这个过程设计不当,就会增加风险。因此,需要明确接管触发条件、足够的时间窗和清晰的提示方式,同时在设计上尽量减少对用户即时高复杂度决策的依赖。

对于消费者来说,对自动驾驶汽车的信任也非常关键。一次危险的动作就可能毁掉用户对系统的信心。要建立信任,系统需要持续可靠且能解释自己的行为。VLA在解释性输出方面有天然优势,但前提是解释必须准确、可验证,并且易于理解。

可落地的折中策略

鉴于VLA模型不可不去面对的这些挑战,现阶段最务实的做法是渐进式、混合式落地。把VLA用在语义理解、异常检测、场景注释、人机交互等对实时性不那么敏感但对语义能力要求高的功能上,让它成为“智能的助手”;对于关键的高频控制仍然交给经过验证的低级控制器。还有一种思路就是把VLA当作慢思维:在后台做长时间的策略优化、驾驶风格学习和复杂场景分析,再把受限的结论以可解释且受约束的方式下发给车端控制系统

对于商用化的模型,还必须设计好回退机制、日志与可审计模块,并把它们写进每一次版本的验收标准。数据采集策略要优先覆盖那些影响安全的长尾场景,仿真和现实测试要结合进行,验证体系要能给出可量化的安全证据而不是单纯的性能曲线。

相关推荐