如何训练并评价VLM/VLA模型，13大开源数据集一览

典型VLM包含四个组件：视觉编码器vision encoder、驾驶视觉适配器driving adapter、文本编码器text encoder和大型语言模型（LLM），VLA与VLM相比则多了一个轨迹规划器，一般是基于扩散模式。有时adapter也称为Input Projector：将不同模态的输入数据映射到共享的语义空间。无论是VLM还是VLA，LLM都是核心。

小米汽车最新端到端模型ReCogDrive训练管线

图片来源：论文《ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving》

小米汽车与华中科技大学首先使用310万高质量驾驶数据集来让大模型适应驾驶场景。具体而言，从12个开源驾驶数据集收集数据，进行归一化处理，统一格式，重新标注回答，打分过滤低质量数据，最终得到230万条高质量驾驶QA问答对，还构建了一个自动标注流水线，结合 80亿参数的Qwen2.5-VL 和数据集标签，生成高质量的问答数据，涵盖场景描述、关键物体描述、规划解释等任务，此外，还融合665K的 LLaVA 指令调优数据，以保持视觉语言模型的指令遵循能力。

虽然VLM视觉语言大模型能够以自回归形式生成轨迹，但由于动作空间与语言空间的巨大差异，这种方法存在根本限制。一方面，多模态大模型本身不擅长精确数值预测，另一方面，视觉语言大模型偶尔会出现幻觉现象，降低其在驾驶场景中的可靠性。受具身智能领域 π0、GR00T-N1 相关研究启发，小米汽车和华中科技大学采用基于扩散模型的轨迹规划器作为动作解码器，从高维特征空间解码出平滑轨迹，使用扩散模型做轨迹规划器已是端到端自动驾驶的最主流技术。依靠12个开源QA数据集，导出并混合了85109个轨迹用于扩散模型的训练。

AgentThink整体框架

图片来源：论文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》

VLM要用到自动驾驶领域，通常要经历两个阶段，一个是监督微调即SFT，另一个是强化学习增强。LLM就好比刚升入大学的学生，SFT就是针对所选专业的学习，强化学习增强则类似所选工作任务的在岗培训。

SFT通常就是自动驾驶领域内的VQA问答集，如何设计VQA问答集是VLM的关键。也有不少免费公开的自动驾驶VQA问答集，常见的有十几个。通常这些数据集都分成两部分，一部分用于训练，另一部分用于基准测试即benchmark，还有一些数据集专注于基准测试，其数据集规模比较小，一般都提供基线模型baseline model。这些训练是弥合VLM输出的离散文本空间与自动驾驶所需的连续轨迹空间之间存在巨大鸿沟，也防止VLM的自回归解码过程可能产生不符合预定格式的轨迹或错误的轨迹。

早期的端到端自动驾驶都是使用模仿学习，导致模型往往最终学到次优的轨迹，模型只进行了记忆不会泛化，因此引入强化学习，强化学习都需要在交通仿真器中进行，目前主要有nuPlan，CARLA，还有谷歌的Waymax，苹果自己开发的Gigaflow，英伟达的NAVSIM，小米汽车和华中科技大学用了英伟达的NAVSIM，每个仿真器都有自己的评分体系，各不相同。

常见VLM用VQA开源数据集一览

来源：佐思汽研整理

以华中科技大学和地平线的Senna为例，设计了六类QA问答，这才是VLM的核心：

Scene Description：提示词中指定了需要的信息，包括交通状况、环境(如城市、农村等)、道路类型(如铺设道路、高速公路)、天气条件、时间和道路条件(如道路是否光滑或是否有任何障碍物)；

Traffic Signal Detection：识别前方红绿灯的状态；

Vulnerable Road User （VRUs）Identification：识别VRUs即行人或骑车人等相对汽车的弱势道路使用者的大概位置，不用太准确，主要是让VLM理解到VRUs对规划的重要性；

Motion Intention Prediction：预测移动目标未来的运动行为，输出也是meta-action里的那几类；

Meta-action Planning：输出meta-actions；

Planning Explanation：这里是输入给VLM自车未来的轨迹，让VLM解释这么做的原因。

"acc." refers to accelerate and "dec." refers to decelerate

表来源：论文《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》

上表显示出6种类型齐备的QA问答，让模型性能达到最高，其中也不难看出Meta Action、交通灯信号、场景描述对模型正确率影响较大。

表来源：论文《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》

左表显示出只输入前视图和加上环视图的性能对比，右表显示出训练数据规模对模型性能的影响。

每个训练数据集会抽出一小部分做测试评估，也有一些专门用来做基准测试的小型数据集即benchmark，常见的如下表。

来源：佐思汽研整理

对于视觉文本问答即VQA，主流的评估体系是基于机器翻译的，通常包括BLEU，ROUGE，CIDEr。BLEU (BiLingual Evaluation Understudy) 是一种评估机器翻译文本的指标，但也可用于评估生成文本的质量，通过比较机器生成的文本和人类生成的参考文本的重叠程度。BLEU 得分是一个 0 到 1 之间的数字，用于衡量机器翻译文本与一组高质量参考翻译的相似度。0 表示机器翻译的输出与参考翻译没有重叠（低质量），而 1 表示其与参考翻译完全重叠（高质量）。

BLEU评分是由Kishore Papineni等人2002年的论文《BLEU: a Method for Automatic Evaluation of Machine Translation》中提出的。默认情况下，sentence_bleu（）和corpus_bleu（）分数计算累加的4元组BLEU分数，也称为BLEU-4分数，一般简写为B4。

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)，可以看做是BLEU 的改进版，专注于召回率而非精度。换句话说，它会查看有多少个参考译句中的 n 元词组出现在了输出之中。

CIDEr (Consensus-based Image Description Evaluation)专门为图像描述任务设计，CIDEr更接近人类去判断两个句子是否相近的原理，因为它利用了TF-IDF来对不同n-gram去赋予不同的权重，直观来说，即经常出现的词组的权重具有更低的权重，而不常出现的词组则更特殊（具有更大的权重），人们会更注意这些特殊的单词。

除了VQA外，不同的benchmark会有不同的侧重点和评分体系，比如武汉大学与中科慧拓提出的DriveMLLM benchmark，侧重于VLM模型的空间理解能力。

论文《AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving》

小米汽车AgentThink使用DriveMLLM测试，L/R代表左右边界，F/B代表前后边界，Relative Horizontal Distance关联水平距离 (RHD), Relative Distance关联距离 (RD), Camera Vertical Distance摄像头垂直距离 (CVD), Camera Distance 摄像头距离(CD) Position Localization Accuracy 定位精度(Task PPos)，Bounding Box Accuracy 边界框精度(Task BBox)，The Aggregate Accuracy Score累积精度 (AccS)。

复旦和华为诺亚方舟实验室的Reason2Drive，侧重于VLM的推理能力测试，拥有超过60万个视频-文本对的基准数据集，旨在促进复杂驾驶环境中可解释推理的研究。将自动驾驶过程明确地描述为感知、预测和推理步骤的顺序组合，问答对是从各种开源户外驾驶数据集中自动收集的，包括nuScenes、Waymo和ONCE，标注长度达633K，在VLM Benchmark里排名第一。

2025年6月11日发布的AD2-BENCH，是中科院和腾讯CDG联合推出的侧重于多模态大模型的推理能力测试，与其他高校或企业的benchmark采用自动生成标注的方法不同，财大气粗的腾讯采用全人工专家标注，准确度是明显比自动生成要高。

AD2-BENCH搜集了10K道路实拍数据，70K的VQA问答，5406个实例包括全思维链，所有VQA和思维链都采用专家人工标注，集成了 region，文本 text，point-level（疑似是点云级） visual prompts 和可确定的转向模式explicitly steers model。

AD2-BENCH对主流多模态大模型的推理能力打分

数据来源：论文《AD2-Bench: A Hierarchical CoT Benchmark for MLLM in Autonomous Driving under Adverse Conditions》

值得一提的还有理想汽车的DriveAction，2025年6月9日刚刚发布，论文为DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models，作者全部都是理想汽车的研发人员，没有高校参与。

DriveAction数据集源自量产车辆内部测试用户主动收集的真实世界数据，与以往依赖自收集或开源数据的基准不同，它覆盖了中国148个城市以及所有量产车型的记录。通过多轮人工筛选和质量控制，确保了驾驶场景和动作的全面性和代表性。

该数据集涵盖了7大关键场景类别，包括匝道/侧路合并/分离、导航/效率驱动的变道、绕行弱势道路使用者、复杂路口等。每个场景都关联了多种细粒度动作，如变道、减速、绕行等，能够详细分析不同驾驶情况下的决策过程。DriveAction的动作标签直接来源于用户的实时驾驶操作，能够准确捕捉驾驶员决策时的真实意图。为了与端到端大型模型的输出粒度匹配，这些标签被离散化为高级动作，更好地反映了人类驾驶决策的分类性质。所有标签都经过多轮人工验证，排除了错误、不合理或非法的行为，如意外的控制输入、与交通环境不符的突然停车、违反交通规则的动作等，确保了标注的可靠性和有效性。

DriveAction Benchmark示例

图片来源：论文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》

DriveAction引入了以动作为根的树状结构评估框架，该框架基于动作决策动态映射所需的视觉和语言任务，通过整合丰富的context场景信息，确保模型决策在完整、现实的环境中进行。

任务定义：该框架将评估逻辑设计为以动作为根的树状结构，上层是动作节点（如变道、路口转弯等），中间层是语言任务（如导航跟随、交通灯跟随等），底层是视觉任务（如车道、交通标志、障碍物检测等）。这种结构系统地将V-L-A任务整合到一个可扩展的框架中，支持针对每个动作的动态子任务组合，即使在复杂或长尾场景中也能进行全面的决策评估。

场景信息设计：为模型评估提供了三种关键场景信息，包括连续的视觉帧（支持动态上下文中的时间推理）、导航指令（提供路线指导、即将到来的转弯和目标车道信息）、车辆速度（量化当前和期望的驾驶状态）。这些信息对于可靠和上下文感知的自动驾驶评估至关重要，能够有效减少模型的幻觉决策。

灵活的评估模式：支持综合评估和特定任务评估两种模式。综合评估关注模型的最终决策输出，通过四种评估模式（全流程模式V-L-A、仅视觉模式V-A、仅语言模式L-A、无信息模式A）分析视觉和语言信息对整体动作决策的影响；特定任务评估则对层次树结构中的每个节点进行细粒度评估，帮助识别模型在感知、推理和决策技能方面的优势和劣势。

几种多模态大模型的评分

数据来源：论文《DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models》

目前端到端自动驾驶的评估体系还未完全建立，高校和企业都在自建评估体系，并且这些评估体系都是仿真的，都达不到严格意义上的闭环评估，这或许是端到端自动驾驶给智能驾驶管理系统出的难题，不过这并不阻碍端到端自动驾驶的量产上车。

免责说明：本文观点和数据仅供参考，和实际情况可能存在偏差。本文不构成投资建议，文中所有观点、数据仅代表笔者立场，不具有任何指导、投资和决策意见。

更多佐思报告

佐思2025年研究报告撰写计划

智能网联汽车产业链全景图（2024年12月版）

云端和AI
车云	OTA研究	智能驾驶仿真
汽车云服务研究	自动驾驶地图
TSP与应用服务	V2X和车路协同
数据闭环研究	路侧智能感知
车路云一体化研究
AI大模型	汽车AI大模型研究	AI大模型对整车智能化影响
座舱AI应用研究	车载AI Agent产品开发与商业化
AI定义汽车

智驾系统集成和应用层
自动驾驶应用框架	ADAS与自动驾驶Tier1-国内	自主品牌ADAS
ADAS与自动驾驶Tier1-国外	国外OEM ADAS研究
L3/L4级自动驾驶和初创企业	理想L8/L9功能拆解
智能驾驶Tier1前10强对比	日本Tier1先进技术研究
自动驾驶算法和系统	端到端智驾研究	行泊一体研究
冗余系统	舱泊一体
智驾融合算法	舱行泊融合
汽车视觉算法	无人配送车
领航辅助驾驶（NOA）
感知	毫米波雷达	汽车视觉
激光雷达研究	红外夜视
激光雷达核心部件	车用超声波雷达
软件定义雷达	车载摄像头Tier2
MEMS 传感器	前视一体机

智舱系统集成和应用层
智能座舱应用框架	智能座舱Tier1	座舱设计趋势
智能座舱平台
座舱显示	车载XR研究	HUD产业链
仪表和中控显示	电子后视镜
座舱多屏与联屏	行车记录仪
HUD产业研究	智能玻璃
座舱交互	车载语音	车载香氛与空气净化
舱内监控研究	汽车音响
汽车多模态交互	智能表面
手势交互发展
座舱互联娱乐与生态	汽车生态域	自主品牌车联网
汽车数字钥匙	合资品牌车联网
车载支付	新势力品牌车联网
车载信息娱乐	商用车车联网
汽车eCall系统	商用车智能座舱
座舱其他	汽车舒适系统	智能车门
汽车照明	上海车展75项趋势
车载无线充电	两轮车智能化
AI/AR眼镜研究

OS和支撑层
SDV框架	SDV：OEM软件开发和供应链部署策略	汽车软件业务模式
SDV： SOA与中间件
基础软件/系统平台	AUTOSAR研究	汽车操作系统
数字仪表OS
信息安全/功能安全	汽车信息安全	汽车功能安全

电子电气架构层
E/E架构框架	E/E架构	汽车电子代工
48V低压供电网络
智驾域	自动驾驶SoC	ADAS域控组件
自动驾驶域控
座舱域	智能座舱平台	座舱域控
座舱SoC	8295座舱域控制器拆解
车控域	车身(区)域控研究	汽车VCU研究
电驱动和动力域控制器
通信/网络域	车内通信芯片	商用车T-Box
无线通讯模组	高精度定位
汽车网关	车载天线
乘用车T-Box	汽车UWB研究
跨域融合	多域计算和区域控制器
区域和中央计算	车身(区)域控研究
其他芯片	汽车MCU研究	车用RISC-V研究
车载存储芯片	传感器芯片
电源管理芯片	汽车CIS研究
汽车芯片供应链研究

动力层
动力	混合动力报告	电源管理芯片
800V高压平台	电驱动与动力域研究
IGBT及SiC研究
能源	一体化电池	充换电研究
燃料电池	移动充电机器人
固态电池	数字电源及芯片
其他	热管理系统	一体化压铸
汽车微电机及运动机构研究

机械层
底盘/执行	乘用车底盘域控	电控悬架
线控制动&AEB	智能转向关键组件
转向系统	商用车智能底盘
滑板底盘研究	数字底盘研究

AI机器人
AI机器人	PBV及汽车机器人	无人配送车
移动充电机器人	飞行汽车
具身智能研究

其他宏观
车型平台	车企模块化平台	主机厂车型规划研究
出海	主机厂海外布局	座舱出海研究
政策、标准、准入	智驾法规和汽车出海	自动驾驶标准与认证
其他	新技术应用趋势	24-25年新车及供应商趋势

如何训练并评价VLM/VLA模型，13大开源数据集一览

汽车微电机及运动机构研究

新技术应用趋势

相关推荐