Waymo世界模型在CVPR 2026上首次曝光：自动驾驶正在进入“Genie时代”

最近的CVPR 2026上Waymo 的Vincent Vanhoucke 主题演讲Lessons from Driving 200 Million Fully Autonomous Miles 中的一页PPT，透露了其下一代自动驾驶系统最重要的技术方向。

这张题为《How we built our World Model》的页面虽然只有寥寥几行字的一页，却揭示了Waymo构建世界模型的完整训练框架：预训练（Pre-training）→ 中期训练（Mid-training）→ 后训练（Post-training）更重要的是，它表明Waymo正在全面借鉴大语言模型（LLM）的训练范式，将自动驾驶从传统的软件工程问题，转变为基础模型（Foundation Model）问题，甚至暗示整个自动驾驶行业都会转向这种新范式。下面我们拿大语言模型的发展来看看基础模型如何转变成驾驶模型。

第一阶段：站在DeepMind肩膀上

在流程图最顶部，Waymo给出的基础模型并不是自己研发的模型，而是：Google DeepMind Genie 3 （当然这是waymo的母公司或着反正有关系的公司）。这意味着Waymo并没有选择从零开始训练世界模型，而是直接利用Google DeepMind已经构建完成的大规模世界模型能力。

过去几年，谷歌的DeepMind 一直持续推进其 Genie 系列模型的发展：Genie 1：从单张图片生成可交互游戏世界；Genie 2：从文本、图片和视频生成动态3D环境；Genie 3：进一步具备长期时序预测、物理规律建模以及场景演化能力。

本质上，Genie 3已经不再只是一个生成模型，而是一个能够理解现实世界运行规律的“世界模拟器”。它学习的不仅仅是图像内容，而是：物体如何运动；行人如何行动；光照如何变化；场景如何演化；物理规律如何约束世界。而这些能力，恰恰是自动驾驶最需要的能力。

这与今天大模型的发展路径高度相似：GPT → 医疗GPTGPT → 法律GPTGPT → 金融GPTWaymo选择的是：Genie 3 → Driving Genie 先获得世界规律理解能力，再将其转化为自动驾驶能力。

第二阶段：让Genie学会驾驶

然而，仅有Genie还远远不够。因为Genie本质上是一个通用世界模型。它看到的是：图片、视频、文本而Waymo车辆看到的是完全不同的数据形式。

在第二阶段中，Waymo写道：Add Waymo-specific sensors and properties即：加入Waymo专属传感器和属性。例如：多摄像头（Multi-camera）、激光雷达（LiDAR）、毫米波雷达（Radar）、高精地图（HD Map）、这是整个系统最关键的一步。

从视觉世界到驾驶世界

DeepMind的世界模型理解的是：“这个世界长什么样”。而Waymo需要理解的是：“这个世界对于驾驶意味着什么”。例如同样一个行人：对于普通视频模型来说：一个正在移动的人而对于自动驾驶系统来说：速度是多少？是否会横穿？是否会进入本车道？多久会与车辆产生冲突？这是完全不同的任务。因此Waymo需要通过海量自动驾驶数据进行中期训练（Mid-training），让Genie建立新的认知体系。

模型需要学会理解：摄像头图像；激光雷达点云；雷达速度信息；地图车道拓扑；以及这些信息之间的对应关系。这一步其实非常像GPT向GPT-4o演进的过程：语言模型加入视觉能力 → 多模态模型而Waymo则是：通用世界模型 → 加入自动驾驶传感器 → 自动驾驶世界模型

第三阶段：让世界模型学会开车

在最后阶段，Waymo写道：Fine-tune and distill to the task at hand即：针对具体任务进行微调和蒸馏。其重点应用包括：Long Sensor Simulation、Planning

长时序仿真

自动驾驶最困难的问题之一，是预测未来。车辆需要知道：1秒后发生什么；5秒后发生什么；10秒后发生什么；30秒后发生什么。例如：行人是否会突然横穿；前车是否会加塞；红绿灯是否即将变化；路口是否会出现新的冲突目标。

传统系统通常采用：感知 → 预测 → 规划的串行架构。而世界模型则尝试直接模拟未来世界的演化过程。如果模型能够准确预测未来，那么自动驾驶决策将变得更加可靠。

从预测走向规划

但Waymo并不满足于预测。他们还希望模型能够直接参与规划。传统规划系统关注的是：别人会怎么动而世界模型进一步思考：我应该怎么动例如：是否应该变道；是否应该减速；是否应该绕行；是否应该礼让。

一个被忽视的重要关键词：蒸馏

很多人会注意到预训练和微调，却忽略了最后一个词：Distillation（蒸馏）这是Waymo未来量产落地的关键。训练阶段的世界模型可能拥有数百亿甚至上千亿参数。但车端算力无法直接运行这样的模型。

因此需要：Teacher Model → Distillation → Student Model将大模型的能力迁移到车端模型。这与今天大模型行业的发展路径完全一致：GPT-4 → GPT-4o miniGemini Ultra → Gemini Nano未来Waymo车端运行的，很可能并不是完整世界模型，而是经过蒸馏后的轻量化版本。

Waymo真正想做什么？

如果把这张图放到整个自动驾驶技术演进历史中看，会发现一个非常明显的趋势。过去十年，自动驾驶行业主要采用模块化架构：感知 → 预测 → 规划 → 控制每个模块独立开发、独立优化。

在到端到端喂长尾数据不断优化再到今天，包括Waymo、Tesla、理想、NVIDIA在内的头部玩家，正在逐渐走向统一架构：World Model → Simulation → Planning不再依赖大量人工设计的模块接口，而是让模型自己学习世界规律、预测未来并完成决策。换句话说：自动驾驶正在从“软件工程时代”，迈向“基础模型时代”。

结语

这张看似简单的PPT，其实透露了Waymo下一代技术路线的核心逻辑：利用DeepMind Genie 3获得通用世界理解能力，通过Waymo专属传感器数据完成自动驾驶领域训练，再针对仿真与规划进行微调和蒸馏，最终形成面向Robotaxi和量产自动驾驶的基础模型。

未来自动驾驶竞争的核心，或许不再是谁拥有更复杂的模块化系统，而是谁拥有更强大的世界模型。而这也可能是整个辅助驾驶、自动驾驶的新范式。所以，现在正欢的各家自动驾驶算法公司或许千万要小心，打败你的可能真不是你熟悉的同行，未来这些科技基础模型公司的降维打击才是致命的。

来源：CVPR 2026上Waymo 的Vincent Vanhoucke 主题演讲Lessons from Driving 200 Million Fully Autonomous Miles 中的一页PPT。

*未经准许严禁转载和摘录-获取本文参考资料方式：加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。