特斯拉CVPR 2026 演讲全文和详解：把自动驾驶，做成「所有机器人的基础模型」

北京时间 6 月 4 日凌晨，CVPR 2026（计算机视觉顶会）在美国丹佛开幕。特斯拉自动驾驶与 Optimus 双线负责人 Ashok Elluswamy 在「具身智能基础模型部署」专题工作坊登台，题目只有一句话：Building Foundational Models for Robotics at Tesla。

其实这是特斯拉的老题目和老slides了，那么这次CVPR特斯拉Ashok Elluswamy 又透露了什么新东西？Jack为你根据CVPR现场最新的图片解读。

「我们不是在造一个驾驶产品，而是在为所有机器人构建一个统一的基础模型。同一套模型，今天开车，明天就在工厂里搬箱子。」
—— Ashok Elluswamy，特斯拉 AI 软件副总裁

以下是这场演讲的完整内容还原和解读。

一句话总结：把整个机器人问题，压成「2 个 token 的输出」。

01、使命：用通用机器人，创造「极度丰裕」

演讲一开场，Elluswamy 把特斯拉的 AI 版图摊在一张幻灯片上：三条线，同一个内核。Self-Driving（可规模化的车辆自治）、Optimus（面向物理世界的人形机器人）、以及 Digital Optimus（端到端的电脑操作智能体——演示里它直接听懂「帮我清空 first touch 收件箱」并自己点完）。

他强调，这三件事看起来是三个产品，本质却是同一个基础模型在不同身体上的投影。目标只有一个：通过通用机器人把人类从重复性体力劳动中解放出来，创造「Amazing Abundance（极度丰裕）」。

三条线、一个内核：Optimus、Self-Driving、Digital Optimus。Optimus 已能用自然语言被指挥学习新任务（现场为 1.5 倍速画面）。

所以，可以总结，特斯拉将基础模型当作不管是物理还是数据AI的底层了。

02、规模：130 万辆车，已经在全球路上跑

这次slides的更新是，他给出当前的部署版图：

全球已有约 130 万辆具备监督式自动驾驶能力的特斯拉在路上。

北美（美国、加拿大、墨西哥）已交付，欧洲的荷兰、爱沙尼亚、立陶宛，亚太的中国、韩国、澳新等地或已交付、或在等待监管放行。

绿色为已交付客户的市场，黄色为等待监管批准。中国位列已交付区域。

规模意味着数据。截至演讲时，FSD 累计行驶里程已超过 108 亿英里，其中城市道路约 40.7 亿英里——这正是后面所有论证的燃料。

1.3M全球监督式自动驾驶车辆108 亿FSD 累计行驶英里数03　证据：前沿技术正在让道路更安全

Elluswamy 用「发生一次重大碰撞前能开多少英里」这个指标做对比——数字越大越安全。无论高速还是城市道路，开启 FSD（监督版）的特斯拉，里程都显著高于手动驾驶、也远高于全美平均水平。这算是广告了，但也确实给人类自动驾驶带来了信仰，确实自动驾驶安全性高于人。

高速 vs 非高速：FSD 监督版（蓝）每 890 万 / 290 万英里才发生一次重大碰撞，远高于全美平均的 150 万 / 50.5 万英里。

北美全路况口径：重大碰撞前里程 510 万英里（FSD）对 69.9 万英里（全美平均）。数据来源 tesla.com/fsd/safety。

04、硬件：跑在自研 AI4 芯片上，双脑互检

目前特斯拉的这套模型跑在特斯拉自研的 AI4 推理芯片上，关键词是「完整的故障切换冗余」——两台计算机并行运行、互相校验，一台出问题，另一台瞬间接管。而且，同一颗芯片，既驱动车上的 FSD，也驱动 Optimus 机器人。

Tesla AI4：车与机器人共用的同一颗推理芯片，双计算机并行互检。

所以，这意味着，特斯拉所有的车子当前计算方面都是考虑冗余的，这也就是为什么说特斯拉表示以后自己的特斯拉可以出租加入Robotaxi编队，当然这个哪位技术大拿，从硬件和软件上进行详细拆解。

05、架构：一个端到端的「机器人基础模型」

接下来是核心。特斯拉一直宣称的端到端大模型：一个大模型，海量数据训练，超长上下文，以 36Hz 运行，直接吐出控制动作。

输入端把摄像头视频、导航与指令、车辆运动学、音频等等一股脑喂进去；输出端就是「下一个动作」。没有手写规则，没有中间表示的硬切分。

端到端基础模型：多模态输入 → 大型神经网络 → 直接产生下一步动作。

为什么非要端到端？这是这次演讲中一直提出的问题，这个大家也都熟悉了，因为人类的价值观，几乎无法用代码穷举。

他举了个「微型电车难题」：前方一个小水坑，是从水坑上压过去，还是短暂越过中线借对向车道绕开？没有标准答案，取决于水坑大小、对向有没有车、路面情况……这种判断只能从海量真实数据里「学」出来，而不是写死在 if-else 里。

「微型电车难题」：压过小水坑，还是借对向车道？真实道路上全是这种没有标准答案的取舍。

然后他抛出全场的主线——把整套端到端的方法做成现实，要跨过三道关卡。

⚙️ 关卡一　维度灾难（Curse of Dimensionality）

Elluswamy 表示自动驾驶的输入上下文，长到惊人。

Elluswamy 现场算了一笔自动驾驶需要的数据账：7 路摄像头 × 36 FPS × 500 万像素 × 30 秒历史，再除以 5×5 的像素块——输入上下文约 20 亿个 token。再加上导航地图、100Hz 的运动数据、48kHz 的音频。

而输出呢？

只有 2 个 token：下一步的转向和加速度。

模型要做的，是学会这 20 亿 → 2 的正确因果映射。

「超长上下文是驾驶的最低门槛」：约 20 亿输入 token，仅 2 个输出 token。

特斯拉表示应对维度灾难的唯一解，是规模化的车队数据。

海量数据带来两样东西：极强的泛化能力，以及「主动安全」——模型在罕见、危险的长尾场景里也能提前预判。

他放了一段画面：城市道路上，一个孩子骑车突然摔倒滚向车道，系统提前减速避让。这种场景人工根本造不全，只能靠真实车队「捞」回来。

大数据带来极致泛化与主动安全：左为骑车孩童突然摔入车道的长尾场景。

关卡二　可解释性与安全保证

端到端最大的质疑是「黑箱」。Elluswamy 的回应是：用思维链（Chain-of-Thought）和过程验证来破解。基础模型在输出动作的同时，还会预测一大堆「可被人读懂」的中间结果。

模型同时吐出的可解释信号：

· 3D 占据与流（3D occupancy & flow）
· 车辆、行人、骑行者等物体
· 交通管制（信号灯、标志）
· 道路边界、车道语义、限速
· 各交通参与者的交互概率
· 以及——用自然语言表达的决策理由

同一个大网络，旁路输出全景分割、3D 占据、3D 高斯、语言与推理，让动作变得「可审查」。

可解释输出清单：从 3D 占据、物体、交通管制到「以自然语言表达的决策」。

所以，特斯拉也采用自然语言推理。

现场画面里，车辆遇到「前方道路施工封闭 + 改道标志」的长尾情况，系统用一问一答的链条自我推理：「能直行走导航路线吗？→ 不行，前方有改道牌和施工护栏。→ 那该怎么走？→ 在这个路口左转。→ 为什么不右转绕？→ 因为改道牌指示向左。」每一步都打了对勾或叉。

这个和我们之前文章《黄仁勋GTC Taipei 2026 Taipei完整解密：科普Agent、升级物理AI基座模型Cosmos 3、重构PC！》讲到的英伟达Alpamayo 一样的。

自然语言推理应对长尾：模型像答题一样，把「为什么这样开」一步步讲清楚。

所以，特斯拉给的答案，不管什么模型，语言这个东西去不掉，你不用他输入，你也要用他输出，毕竟交互的是人，人最直观通用的就是语言。

关卡三　评估（三道关卡里最难的一道）

他直言，评估是三者中最难的。原因很反直觉：

· 数据集再好，loss 也不足以代表真实性能
· 开环（open-loop）表现好，不保证闭环（closed-loop）也好
· 避免一次事故有很多种正确解法，指标必须能容纳这种「多模态」
· 一种思路是评估「行动后果」的预测
· 需要均衡且全面的评测集
· 工作枯燥，但极其重要

评估为何最难：好的开环不等于好的闭环，指标必须捕捉「多种正确做法」。

那么如何解呢，特斯拉的解法，是再训练一个神经网络世界模拟器（World Sim NN）。

它吃进「当前状态 + 动作」，预测「下一时刻的状态」（摄像头画面、导航、运动学、音频……一应俱全），再把状态喂给策略网络（Policy NN）产生下一个动作——形成一个完全在神经网络里跑的闭环模拟器。

闭环模拟：World Sim NN 生成下一状态 → Policy NN 产生下一动作 → 再回灌，形成回路。

世界模拟器可用「便宜易得的状态-动作数据」训练：t 时刻状态 + 动作 → t+1 时刻状态。

采用这套模拟器能用来做策略评估、回归测试，甚至主动注入新问题和对抗场景；压缩算力后还能实时运行。

更关键的是——同一套神经模拟方法，能从 FSD 直接迁移到 Optimus，把工厂、室内等场景一并生成出来。

神经模拟从 FSD 规模扩展到 Optimus：同一方法生成工厂与室内场景。

06、结语：特斯拉，是做「现实世界 AI」的地方

三道关卡讲完，特斯拉自动驾驶的逻辑闭环了：

维度灾难靠车队数据解，

黑箱靠思维链解，

评估靠神经世界模拟器解。

而这一切的终点，是把驾驶训练出来的同一个基础模型，扩展到所有机器人身上——车、人形机器人、数字智能体。

最后一页，是招募。这也是特斯拉常做的事情。

收尾页：Tesla is the place for real-world AI & Robotics（tesla.com/AI）。

Vehicle 观察｜对中国同行意味着什么

这场演讲给中国汽车的辅助驾驶/自动驾驶的启发，不是「特斯拉有多强」，而是它把自动驾驶重新定义成了「具身智能的一个子集」——车只是第一个身体。

对于辅助驾驶/自动驾驶行业的开发和部署来讲，已经不是一个算法和算力能够取胜，而是正在从「算法」转向「数据飞轮 + 闭环评估体系」的全体系竞争：谁能更便宜地做好各种辅助工具，造出可信的闭环评测，谁就能更快迭代。这恰恰是国内拥有海量真实路况数据的玩家，最有机会发力，也最容易被忽视的环节。

来源：Ashok Elluswamy（特斯拉 AI 软件副总裁）在 CVPR 2026 的演讲《Building Foundational Models for Robotics at Tesla》，2026 年 6 月 3 日于美国丹佛（同款内容亦曾在 Scaled ML 2026 发表）；演讲页图片由公开现场拍摄整理、已裁去上下黑边。安全里程数据引自 tesla.com/fsd/safety。本文为「Vehicle」据现场幻灯片与公开资料整理还原，部分表述为编辑转译，不代表演讲者逐字原话。
*未经准许严禁转载和摘录-获取本文参考资料方式：加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。