典型VLM包含四个组件:视觉编码器vision encoder、驾驶视觉适配器driving adapter、文本编码器text encoder和大型语言模型(LLM),VLA与VLM相比则多了一个轨迹规划器,一般是基于扩散模式。有时adapter也称为Input Projector:将不同模态的输入数据映射到共享的语义空间。无论是VLM还是VLA,LLM都是核心。
小米汽车最新端到端模型ReCogDrive训练管线
图片来源:论文《ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving》
小米汽车与华中科技大学首先使用310万高质量驾驶数据集来让大模型适应驾驶场景。具体而言,从12个开源驾驶数据集收集数据,进行归一化处理,统一格式,重新标注回答,打分过滤低质量数据,最终得到230万条高质量驾驶QA问答对,还构建了一个自动标注流水线,结合 80亿参数的Qwen2.5-VL 和数据集标签,生成高质量的问答数据,涵盖场景描述、关键物体描述、规划解释等任务,此外,还融合665K的 LLaVA 指令调优数据,以保持视觉语言模型的指令遵循能力。
虽然VLM视觉语言大模型能够以自回归形式生成轨迹,但由于动作空间与语言空间的巨大差异,这种方法存在根本限制。一方面,多模态大模型本身不擅长精确数值预测,另一方面,视觉语言大模型偶尔会出现幻觉现象,降低其在驾驶场景中的可靠性。受具身智能领域 π0、GR00T-N1 相关研究启发,小米汽车和华中科技大学采用基于扩散模型的轨迹规划器作为动作解码器,从高维特征空间解码出平滑轨迹,使用扩散模型做轨迹规划器已是端到端自动驾驶的最主流技术。依靠12个开源QA数据集,导出并混合了85109个轨迹用于扩散模型的训练。
AgentThink整体框架
图片来源:论文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》
VLM要用到自动驾驶领域,通常要经历两个阶段,一个是监督微调即SFT,另一个是强化学习增强。LLM就好比刚升入大学的学生,SFT就是针对所选专业的学习,强化学习增强则类似所选工作任务的在岗培训。
SFT通常就是自动驾驶领域内的VQA问答集,如何设计VQA问答集是VLM的关键。也有不少免费公开的自动驾驶VQA问答集,常见的有十几个。通常这些数据集都分成两部分,一部分用于训练,另一部分用于基准测试即benchmark,还有一些数据集专注于基准测试,其数据集规模比较小,一般都提供基线模型baseline model。这些训练是弥合VLM输出的离散文本空间与自动驾驶所需的连续轨迹空间之间存在巨大鸿沟,也防止VLM的自回归解码过程可能产生不符合预定格式的轨迹或错误的轨迹。
早期的端到端自动驾驶都是使用模仿学习,导致模型往往最终学到次优的轨迹,模型只进行了记忆不会泛化,因此引入强化学习,强化学习都需要在交通仿真器中进行,目前主要有nuPlan,CARLA,还有谷歌的Waymax,苹果自己开发的Gigaflow,英伟达的NAVSIM,小米汽车和华中科技大学用了英伟达的NAVSIM,每个仿真器都有自己的评分体系,各不相同。
常见VLM用VQA开源数据集一览
来源:佐思汽研整理
以华中科技大学和地平线的Senna为例,设计了六类QA问答,这才是VLM的核心:
Scene Description:提示词中指定了需要的信息,包括交通状况、环境(如城市、农村等)、道路类型(如铺设道路、高速公路)、天气条件、时间和道路条件(如道路是否光滑或是否有任何障碍物);
Traffic Signal Detection:识别前方红绿灯的状态;
Vulnerable Road User (VRUs)Identification:识别VRUs即行人或骑车人等相对汽车的弱势道路使用者的大概位置,不用太准确,主要是让VLM理解到VRUs对规划的重要性;
Motion Intention Prediction:预测移动目标未来的运动行为,输出也是meta-action里的那几类;
Meta-action Planning:输出meta-actions;
Planning Explanation:这里是输入给VLM自车未来的轨迹,让VLM解释这么做的原因。
"acc." refers to accelerate and "dec." refers to decelerate
表来源:论文《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》
上表显示出6种类型齐备的QA问答,让模型性能达到最高,其中也不难看出Meta Action、交通灯信号、场景描述对模型正确率影响较大。
表来源:论文《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》
左表显示出只输入前视图和加上环视图的性能对比,右表显示出训练数据规模对模型性能的影响。
每个训练数据集会抽出一小部分做测试评估,也有一些专门用来做基准测试的小型数据集即benchmark,常见的如下表。
来源:佐思汽研整理
对于视觉文本问答即VQA,主流的评估体系是基于机器翻译的,通常包括BLEU,ROUGE,CIDEr。BLEU (BiLingual Evaluation Understudy) 是一种评估机器翻译文本的指标,但也可用于评估生成文本的质量,通过比较机器生成的文本和人类生成的参考文本的重叠程度。BLEU 得分是一个 0 到 1 之间的数字,用于衡量机器翻译文本与一组高质量参考翻译的相似度。0 表示机器翻译的输出与参考翻译没有重叠(低质量),而 1 表示其与参考翻译完全重叠(高质量)。
BLEU评分是由Kishore Papineni等人2002年的论文《BLEU: a Method for Automatic Evaluation of Machine Translation》中提出的。默认情况下,sentence_bleu()和corpus_bleu()分数计算累加的4元组BLEU分数,也称为BLEU-4分数,一般简写为B4。
ROUGE (Recall-Oriented Understudy for Gisting Evaluation),可以看做是BLEU 的改进版,专注于召回率而非精度。换句话说,它会查看有多少个参考译句中的 n 元词组出现在了输出之中。
CIDEr (Consensus-based Image Description Evaluation)专门为图像描述任务设计,CIDEr更接近人类去判断两个句子是否相近的原理,因为它利用了TF-IDF来对不同n-gram去赋予不同的权重,直观来说,即经常出现的词组的权重具有更低的权重,而不常出现的词组则更特殊(具有更大的权重),人们会更注意这些特殊的单词。
除了VQA外,不同的benchmark会有不同的侧重点和评分体系,比如武汉大学与中科慧拓提出的DriveMLLM benchmark,侧重于VLM模型的空间理解能力。
论文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》
小米汽车AgentThink使用DriveMLLM测试,L/R代表左右边界,F/B代表前后边界,Relative Horizontal Distance关联水平距离 (RHD), Relative Distance关联距离 (RD), Camera Vertical Distance摄像头垂直距离 (CVD), Camera Distance 摄像头距离(CD) Position Localization Accuracy 定位精度(Task PPos),Bounding Box Accuracy 边界框精度(Task BBox),The Aggregate Accuracy Score累积精度 (AccS)。
复旦和华为诺亚方舟实验室的Reason2Drive,侧重于VLM的推理能力测试,拥有超过60万个视频-文本对的基准数据集,旨在促进复杂驾驶环境中可解释推理的研究。将自动驾驶过程明确地描述为感知、预测和推理步骤的顺序组合,问答对是从各种开源户外驾驶数据集中自动收集的,包括nuScenes、Waymo和ONCE,标注长度达633K,在VLM Benchmark里排名第一。
2025年6月11日发布的AD2-BENCH,是中科院和腾讯CDG联合推出的侧重于多模态大模型的推理能力测试,与其他高校或企业的benchmark采用自动生成标注的方法不同,财大气粗的腾讯采用全人工专家标注,准确度是明显比自动生成要高。
AD2-BENCH搜集了10K道路实拍数据,70K的VQA问答,5406个实例包括全思维链,所有VQA和思维链都采用专家人工标注,集成了 region,文本 text,point-level(疑似是点云级) visual prompts 和可确定的转向模式explicitly steers model。
AD2-BENCH对主流多模态大模型的推理能力打分
数据来源:论文《AD2-Bench: A Hierarchical CoT Benchmark for MLLM in Autonomous Driving under Adverse Conditions》
值得一提的还有理想汽车的DriveAction,2025年6月9日刚刚发布,论文为DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models,作者全部都是理想汽车的研发人员,没有高校参与。
DriveAction数据集源自量产车辆内部测试用户主动收集的真实世界数据,与以往依赖自收集或开源数据的基准不同,它覆盖了中国148个城市以及所有量产车型的记录。通过多轮人工筛选和质量控制,确保了驾驶场景和动作的全面性和代表性。
该数据集涵盖了7大关键场景类别,包括匝道/侧路合并/分离、导航/效率驱动的变道、绕行弱势道路使用者、复杂路口等。每个场景都关联了多种细粒度动作,如变道、减速、绕行等,能够详细分析不同驾驶情况下的决策过程。DriveAction的动作标签直接来源于用户的实时驾驶操作,能够准确捕捉驾驶员决策时的真实意图。为了与端到端大型模型的输出粒度匹配,这些标签被离散化为高级动作,更好地反映了人类驾驶决策的分类性质。所有标签都经过多轮人工验证,排除了错误、不合理或非法的行为,如意外的控制输入、与交通环境不符的突然停车、违反交通规则的动作等,确保了标注的可靠性和有效性。
DriveAction Benchmark示例
图片来源:论文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》
DriveAction引入了以动作为根的树状结构评估框架,该框架基于动作决策动态映射所需的视觉和语言任务,通过整合丰富的context场景信息,确保模型决策在完整、现实的环境中进行。
任务定义:该框架将评估逻辑设计为以动作为根的树状结构,上层是动作节点(如变道、路口转弯等),中间层是语言任务(如导航跟随、交通灯跟随等),底层是视觉任务(如车道、交通标志、障碍物检测等)。这种结构系统地将V-L-A任务整合到一个可扩展的框架中,支持针对每个动作的动态子任务组合,即使在复杂或长尾场景中也能进行全面的决策评估。
场景信息设计:为模型评估提供了三种关键场景信息,包括连续的视觉帧(支持动态上下文中的时间推理)、导航指令(提供路线指导、即将到来的转弯和目标车道信息)、车辆速度(量化当前和期望的驾驶状态)。这些信息对于可靠和上下文感知的自动驾驶评估至关重要,能够有效减少模型的幻觉决策。
灵活的评估模式:支持综合评估和特定任务评估两种模式。综合评估关注模型的最终决策输出,通过四种评估模式(全流程模式V-L-A、仅视觉模式V-A、仅语言模式L-A、无信息模式A)分析视觉和语言信息对整体动作决策的影响;特定任务评估则对层次树结构中的每个节点进行细粒度评估,帮助识别模型在感知、推理和决策技能方面的优势和劣势。
几种多模态大模型的评分
数据来源:论文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》
目前端到端自动驾驶的评估体系还未完全建立,高校和企业都在自建评估体系,并且这些评估体系都是仿真的,都达不到严格意义上的闭环评估,这或许是端到端自动驾驶给智能驾驶管理系统出的难题,不过这并不阻碍端到端自动驾驶的量产上车。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。
更多佐思报告
佐思2025年研究报告撰写计划
智能网联汽车产业链全景图(2024年12月版)
| 云端和AI | ||
| 车云 | OTA研究 | 智能驾驶仿真 |
| 汽车云服务研究 | 自动驾驶地图 | |
| TSP与应用服务 | V2X和车路协同 | |
| 数据闭环研究 | 路侧智能感知 | |
| 车路云一体化研究 | ||
| AI大模型 | 汽车AI大模型研究 | AI大模型对整车智能化影响 |
| 座舱AI应用研究 | 车载AI Agent产品开发与商业化 | |
| AI定义汽车 | ||
| 智驾系统集成和应用层 | ||
| 自动驾驶应用框架 | ADAS与自动驾驶Tier1-国内 | 自主品牌ADAS |
| ADAS与自动驾驶Tier1-国外 | 国外OEM ADAS研究 | |
| L3/L4级自动驾驶和初创企业 | 理想L8/L9功能拆解 | |
| 智能驾驶Tier1前10强对比 | 日本Tier1先进技术研究 | |
| 自动驾驶算法和系统 | 端到端智驾研究 | 行泊一体研究 |
| 冗余系统 | 舱泊一体 | |
| 智驾融合算法 | 舱行泊融合 | |
| 汽车视觉算法 | 无人配送车 | |
| 领航辅助驾驶(NOA) | ||
| 感知 | 毫米波雷达 | 汽车视觉 |
| 激光雷达研究 | 红外夜视 | |
| 激光雷达核心部件 | 车用超声波雷达 | |
| 软件定义雷达 | 车载摄像头Tier2 | |
| MEMS传感器 | 前视一体机 | |
| 智舱系统集成和应用层 | ||
| 智能座舱应用框架 | 智能座舱Tier1 | 座舱设计趋势 |
| 智能座舱平台 | ||
| 座舱显示 | 车载XR研究 | HUD产业链 |
| 仪表和中控显示 | 电子后视镜 | |
| 座舱多屏与联屏 | 行车记录仪 | |
| HUD产业研究 | 智能玻璃 | |
| 座舱交互 | 车载语音 | 车载香氛与空气净化 |
| 舱内监控研究 | 汽车音响 | |
| 汽车多模态交互 | 智能表面 | |
| 手势交互发展 | ||
| 座舱互联娱乐与生态 | 汽车生态域 | 自主品牌车联网 |
| 汽车数字钥匙 | 合资品牌车联网 | |
| 车载支付 | 新势力品牌车联网 | |
| 车载信息娱乐 | 商用车车联网 | |
| 汽车eCall系统 | 商用车智能座舱 | |
| 座舱其他 | 汽车舒适系统 | 智能车门 |
| 汽车照明 | 上海车展75项趋势 | |
| 车载无线充电 | 两轮车智能化 | |
| AI/AR眼镜研究 | ||
| OS和支撑层 | ||
| SDV框架 | SDV:OEM软件开发和供应链部署策略 | 汽车软件业务模式 |
| SDV: SOA与中间件 | ||
| 基础软件/系统平台 | AUTOSAR研究 | 汽车操作系统 |
| 数字仪表OS | ||
| 信息安全/功能安全 | 汽车信息安全 | 汽车功能安全 |
| 电子电气架构层 | ||
| E/E架构框架 | E/E架构 | 汽车电子代工 |
| 48V低压供电网络 | ||
| 智驾域 | 自动驾驶SoC | ADAS域控组件 |
| 自动驾驶域控 | ||
| 座舱域 | 智能座舱平台 | 座舱域控 |
| 座舱SoC | 8295座舱域控制器拆解 | |
| 车控域 | 车身(区)域控研究 | 汽车VCU研究 |
| 电驱动和动力域控制器 | ||
| 通信/网络域 | 车内通信芯片 | 商用车T-Box |
| 无线通讯模组 | 高精度定位 | |
| 汽车网关 | 车载天线 | |
| 乘用车T-Box | 汽车UWB研究 | |
| 跨域融合 | 多域计算和区域控制器 | |
| 区域和中央计算 | 车身(区)域控研究 | |
| 其他芯片 | 汽车MCU研究 | 车用RISC-V研究 |
| 车载存储芯片 | 传感器芯片 | |
| 电源管理芯片 | 汽车CIS研究 | |
| 汽车芯片供应链研究 | ||
| 动力层 | ||
| 动力 | 混合动力报告 | 电源管理芯片 |
| 800V高压平台 | 电驱动与动力域研究 | |
| IGBT及SiC研究 | ||
| 能源 | 一体化电池 | 充换电研究 |
| 燃料电池 | 移动充电机器人 | |
| 固态电池 | 数字电源及芯片 | |
| 其他 | 热管理系统 | 一体化压铸 |
汽车微电机及运动机构研究 |
||
| 机械层 | ||
| 底盘/执行 | 乘用车底盘域控 | 电控悬架 |
| 线控制动&AEB | 智能转向关键组件 | |
| 转向系统 | 商用车智能底盘 | |
| 滑板底盘研究 | 数字底盘研究 |
| AI机器人 | ||
| AI机器人 | PBV及汽车机器人 | 无人配送车 |
| 移动充电机器人 | 飞行汽车 | |
| 具身智能研究 | ||
| 其他宏观 | ||
| 车型平台 | 车企模块化平台 | 主机厂车型规划研究 |
| 出海 | 主机厂海外布局 | 座舱出海研究 |
| 政策、标准、准入 | 智驾法规和汽车出海 | 自动驾驶标准与认证 |
| 其他 |
新技术应用趋势 |
24-25年新车及供应商趋势 |
2833