CVPR 2026 Li Hongyang演讲的World Engine解读：可能就是华为说的WE

还记得华为最新的自动驾驶算法架构叫什么吗？WEWA - World engine and World Action。

在最近的 CVPR 2026 Workshop（丹佛）上，香港大学计算与数据科学学院助理教授，OpenDriveLab 的Li Hongyang 李弘扬先生做了一场名为《Simulation at Scale for Production-level Autonomous Driving》的演讲。其中主题就是采用WE(World Engine)世界引擎来仿真攻克自动驾驶长尾。

所以，本文在演讲内容基础上，结合其团队公开论文对论文中的World Engine 这个自动驾驶仿真技术的方法和逻辑进行解读，希望给大家带来一些信息和启发。

1. 问题的来源：长尾分布与「最后 20%」

演讲中，Li hongyang 先生用给演讲内容做了一个铺垫，量产自动驾驶面临的核心困难，用一条概率分布曲线概括：

日常行驶中，绝大多数情形是常规事件——直行、跟车、正常通过路口；少数是「安全关键事件」，例如近距离接近、加塞、紧急制动；而真正的事故属于极小概率事件，发生频率通常在每百万公里乃至更低的量级。

但是，自动驾驶系统能力越是要覆盖这条曲线的尾部，可用于学习的真实数据就越稀缺。

所以，目前业界的主流做法，本质上是两条规模化路径：

算力

这条路径在特斯拉等公司的实践中被广泛采用，对常规场景行之有效。但演讲指出，它在长尾场景上会遇到收益递减的问题——这正是本次演讲试图回答的核心。需要明确的是，「最后 20%」是一个描述性的说法，用来指代那部分难以通过常规数据采集覆盖、却对安全至关重要的尾部场景，并非一个精确的量化指标。

2. 核心论点：把「后训练」范式迁移到自动驾驶

Li hongyang 提出的主要思路，是借用大语言模型的训练范式来重新审视自动驾驶算法的训练。大语言模型的能力提升通常分两步：先在大规模文本上做预训练，再通过基于人类反馈的强化学习（RLHF）等手段做后训练（post-training）。后训练并不显著增加模型「知道多少」，但对把模型调整到「可用、可控、符合期望」起关键作用。

Li hongyang在演讲中的类比是：自动驾驶模型在某种意义上已经完成了「预训练」——海量真实路采数据相当于它的训练语料；但它缺少一个有效的「后训练」环节。大语言模型的后训练，可以直接引入人的反馈feedback做reward奖励训练。但是对于自动驾驶，却很难，因为自动驾驶所在的物理世界的约束：无法让车辆反复发生真实碰撞、再据此给出奖励信号去优化策略。

换言之，自动驾驶缺的不是数据本身，而是一个能够交互、能够提供反馈、并可安全试错的环境。这个类比有其启发性。语言模型的「环境」是文本和人类评价，反馈廉价且可大量获取；自动驾驶的环境是物理世界，反馈昂贵且涉及安全。因此演讲推出了他们的关键工作，构造一个替代性的数字环境——World Engine世界引擎。

3. World Engine 的三个组成部分

首先，指明一点World Engine 不是单一模型，而是由三个相互衔接的部分构成的系统：像素级的场景重建、场景中多个代理的行为世界模型、最后强化后训练。

1. 像素级重建：构造视觉环境

第一部分基于 3D 高斯泼溅（3D Gaussian Splatting）构建像素级、可渲染的场景，对应其团队的 MTGS论文（多次遍历高斯泼溅，arXiv:2503.12552）工作。

其特点是支持视角外推：将同一地点多次穿行采集的数据融合后，可以从训练时未直接覆盖的位置和角度重新渲染图像。这一部分解决的是「视觉观测是否逼真、是否可控生成」的问题，和当前大家的虚拟simulator差别不大。

2. 行为世界模型（Nexus）：生成交通参与者的行为

第二部分是一个多智能体行为生成模型，对应论文 Nexus（《Decoupled Diffusion Sparks Adaptive Scene Generation》，arXiv:2504.10485），也是本演讲的重点。

这个多智能体行为生产模型要同时满足两个相互冲突的需求：一是反应性（reactivity），即对环境的实时变化做出响应；二是目标导向（goal orientation），即能被预设的未来状态精确引导，从而可控地生成带有明确结局的安全关键场景。

此前的两类方法各有短板：全序列扩散模型可控性好，但难以实时响应交互；自回归式的逐帧预测响应及时，却缺乏对目标状态的感知。Nexus 的做法是「解耦扩散」——让序列中每个 token 拥有独立的噪声状态，并以噪声水平作为一种连续的软掩码：低噪声 token 承担已知条件或目标的约束作用，高噪声 token 则保留对环境变化的响应能力。由此，可控生成与实时反应被统一在同一个去噪过程中。

传统的仿真，可能就是重构环境，然后算法修改看自车运动之后问题是否复现，效率低，而且不符合世界物理的发展，因为自车变化，演员车或者叫做智能体也会变化行为的。现在，这样做的好处是支持闭环场景生成，为自主智能体提供交互式环境。智能体使用生成的场景进行规划，而 Nexus 则根据智能体的动作实时更新场景。为了评估场景生成器的真实性。

3. 强化后训练：在环境中优化策略

第三部分是在上述环境中进行强化学习后训练。演讲强调两点设计：

一是行为正则化强化学习（behaviour-regularized RL），用 KL 约束将后训练后的策略限制在预训练先验附近，避免强化学习把策略推向异常或不安全的行为分布。

二是经验混合（experience mixing），将真实路采日志与世界引擎生成的合成 rollout 混合进同一训练池。演讲对二者关系的概括是：模仿学习学习「人类会如何驾驶」，强化学习则补上「不应如何驾驶」。

这样就形成了World Engine高效生成场景进行对抗学习的训练方法。

4、实验结论与解读：数据效率其实在演讲中Li hongyang 透露的WorldEngine 还给出了目前仿真对比，以及量产级验证。仿真验证中，为弥补公开数据中危险场景稀少的问题，团队还构建了 Nexus-Data：通过 MetaDrive 仿真器生成，交通流以对抗方式合成，并经自动有效性校验筛选。论文报告中指出仿真测试的主要结果包括（这些数字来自 Nexus 论文的基准测试，而非独立复现）：

仿真数据规模约 540 小时，覆盖汇入、加塞、碰撞等高风险交互；相对所对比的方法，位移误差降低约 40%；通过数据增强，闭环规划性能提升约 20%。

此外据他们研究的主页披露：在某工业级闭环仿真平台（超 1 万个场景）上碰撞率下降约 45.5%；在 AITO M9 上做约 200 公里实车路测（上海城快、高架、居民区，含一次夜间）实现零接管；底座是基于 8 万多小时真实路采日志训练的量产系统。

合作方包括港大 OpenDriveLab、华为、上海创智学院，以及 NVIDIA、图宾根大学、valeo.ai、清华等。这些数字来自团队自身的项目主页与报告，正式论文尚未发布。

这里就回到文章开头讲到的，华为最新的自动驾驶算法架构叫WEWA - World engine and world action（可以看我们之前文章《深度分享和分析华为2026乾崑技术大会：大家如何应招？》），所以根据上面论文参与机构和测试透露的信息，华为自动驾驶应该也采用此项量产技术。

写在最后

这场演讲指向一个对产业有现实意义的判断：辅助驾驶/自动驾驶如我们之前文章《从各家出行报告看：中国智驾第一梯队的用户成绩》讲到，已经从敢用走向了常用爱用的阶段，那么大家比拼的就是谁能够高效解决长尾问题。

Li hongyang 先生提出的World Engine能够生产模拟人类驾驶的物理世界，也就是真是多智能体互动的模型，这就犹如给自动驾驶多了一个真实虚拟世界对抗训练的场地，可以极大高效通过后训练快速的提升算法能力。

当然，作为一项研究方向，World Engine 可能仍有若干尚未解决或需要独立验证的问题，这也是评估其落地价值时应保持审慎的原因：仿真到现实的差距（sim-to-real gap）始终存在。重建场景与合成行为再逼真，与真实道路之间仍可能有系统性差异，模型在仿真中的收益未必能等量迁移到实车。

合成的危险场景是否真正覆盖了真实世界长尾的分布，难以完全验证。对抗生成有可能产生「看似危险但不真实」的样本。仿真指标与真实安全之间不能简单画等号。开环、闭环的成功率提升，距离量产所需的安全性论证仍有距离。

深度创作不易，您的点赞、爱心和转发是我们不懈创造提供优质信息的动力，

当然对自动驾驶感兴趣的也可以购买我们的书籍

参考资料以及图片

MTGS：Li et al.,MTGS: Multi-traversal Gaussian Splatting, arXiv:2503.12552, 2025。

*未经准许严禁转载和摘录-获取本文参考资料方式：加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。

CVPR 2026 Li Hongyang演讲的World Engine解读 ：可能就是华为说的WE