演讲人:
Dan Galves(Mobileye 首席传播官)
Amnon Shashua 教授(Mobileye 首席执行官)
Christian Senger(大众汽车自动驾驶出行 CEO / MOIA 董事长)
第一部分:开场与介绍
Dan Galves:谢谢大家,欢迎各位参加 Mobileye CEO Amnon Shashua 教授的年度主题演讲。
我是 Dan Galves,首席传播官。今天我们为大家准备了非常精彩的议程。当然,最令人兴奋的是大约 30 分钟前刚刚分享的新闻——Mobileye 已同意收购 Mentee Robotics。Amnon 的演讲将有一部分涵盖这一内容。
我们也一如既往地很高兴在 CES 上提供汽车方面的最新进展。这包括我们与大众汽车(VW)旗下 MOIA 集团的合作,旨在将自动驾驶汽车带到美国和欧洲的道路上。关于这一点,我们要非常荣幸地邀请到大众汽车自动驾驶出行(Volkswagen Autonomous Mobility)的 CEO Christian Senger 加入我们,与 Amnon 进行对话。谢谢你的到来,Christian。
在 Amnon 开始之前,我将宣读一份前瞻性声明,然后播放一段短视频。请注意,今天的讨论包含基于我们目前所见的商业环境的前瞻性声明。此类声明涉及风险和不确定性。请参阅随附的演示文稿以及 Mobileye 向美国证券交易委员会提交的定期报告和其他文件,特别是其中标题为“风险因素”的部分,其中包含了关于可能导致实际结果产生重大差异的具体风险因素的更多信息。
谢谢,我们将以一段短视频开始。
(播放视频)
第二部分:Mobileye 核心业务回顾 (2025)
(欢迎 Amnon Shashua 上台)
Amnon Shashua 教授:大家好,下午好。我将谈谈机器人技术的范畴,Mobileye 正通过收购一家人形机器人公司进入物理人工智能(Physical AI)的全方位领域。但让我们先从 Mobileye,我们的主营业务开始,然后在演讲的最后,我将介绍人形机器人的相关内容,并向大家展示一些以前任何人形机器人公司都未曾展示过的片段。
让我们开始吧,首先回顾一下我们在 2025 年的表现。
我们查看了与前 10 大客户的报价请求(RFQS)。在 2025 年期间,我们赢得了所有 RFQS 的 95%。我们与沃尔沃(Volvo)和斯巴鲁(Subaru)这两家此前没有合作关系的整车厂(OEM)达成了两项新的定点合作(Design Wins)。
关于我们的 EyeQ6 Lite。EyeQ6 Lite 是用于基础 ADAS(高级驾驶辅助系统)的芯片,这是我们业务中的高产量部分。在 2025 年期间,EyeQ6 Lite 的储备订单(Pipeline)是 2024 年的 3.5 倍,所以在储备订单方面势头非常非常强劲。未来八年的储备订单额为 245 亿美元。提醒一下大家,我们 2025 年的收入略低于 20 亿美元。所以,如果你拿这个数字除以八,这已经比我们 2025 年的收入高出了 50%。所以这是一个非常强劲的储备订单。这个储备订单是基于与 OEM 签署的合同的。其中 180 亿美元是自我们 IPO 以来获得的。自 2023 年以来,储备订单增加了 40%。此外,我们还在竞争潜在的 1 亿多颗芯片的 RFQS。这将进一步增加我们的储备订单。
如果我们看看自公司成立以来的部署情况,超过 2.3 亿颗芯片,即 2.3 亿辆车在路上行驶,我认为这占地球上汽车总数的八分之一。所以这是一个非常非常大的数字。
关于我们的 REM(路网信息管理),这是我们构建高精地图的技术。我们有 800 万辆汽车每天向我们发送数据,我们称之为“采集”(Harvesting)。2025 年期间记录和采集了 320 亿英里,并且有三家新的 OEM 加入了这个采集车队。这使我们要能够构建我们称之为 REM 地图的高精地图,其覆盖范围正在扩展到欧洲、美国、亚洲等地。
我们昨天刚刚宣布了一家美国 OEM 采用了 Surround ADAS(环绕式 ADAS)。Surround ADAS 是我们的系统,配备了 EyeQ6 High——我们最新的高算力芯片。它包含 5 个摄像头和 5 个雷达。或者是 5 到 6 个摄像头:前视摄像头,4 个停车摄像头,加上 1 到 5 个雷达。我们相信这是 ADAS 的演进方向。ADAS 最终将从前视演变为我们所说的 Surround ADAS,900 万辆的规模表明这确实是非常高的产量,SOP(量产启动)是在 2028 年年中。
所以当我们看 Surround ADAS 时,我们已经有了两个定点项目:几个月前宣布的大众汽车,以及这一家美国主要 OEM。加在一起是 1900 万台。这表明它正在成为驾驶辅助的下一步,即 ADAS 的下一次演进。当我们作为二级供应商(Tier 2)时,其平均售价(ASP)是我们普通 ASP 的 2 到 4 倍;当我们作为一级供应商(Tier 1)时,ASP 大约是 12 到 14 倍。
关于我们高级产品的状态:
Surround ADAS:正如刚才提到的,与大众汽车的项目已经处于 B 样件阶段。这是与法雷奥(Valeo)合作的,法雷奥是一级供应商,我们是二级供应商。完整的软件将在今年年底安装完毕,以便在 2028 年 SOP。
Supervision:与保时捷和奥迪(大众集团的高端品牌)合作。我们已经处于硬件 C 样件阶段。我们有数十辆车处于测试阶段,我们的第二代技术栈(Gen 2 Stack,稍后我会谈到)将于今年 4 月准备就绪,SOP 是 2027 年。
Chauffeur:这是我们与奥迪合作的 Level 3 系统。目前处于 B 样件阶段。我们有原型车在进行测试,并且正在致力于“脱眼”(Eyes-off)的具体功能。同样,这是在一年或一年半之后的 SOP。
第三部分:Robotaxi 与大众汽车合作更新
如果看看我们的 Robotaxi(自动驾驶出租车)活动,我们在多个地点都有开展,既有与我们的合作伙伴 MOIA,也有大众自动驾驶汽车的 ID. Buzz。在欧洲的多个地点,包括像奥斯陆这样有很多很多雪的国家。所以我们不仅在阳光明媚的条件下测试,我们还在所有可能的条件下测试,这是使用 ID. Buzz 和 Holon 车辆进行的。所以你可以看到我们覆盖了多个城市的多个站点和多种地理环境。
让我们从 Robotaxi 开始。这是一个与大众汽车和 MOIA 合作的主导项目。回顾一下我们在技术方面的立场,传感器配置包括:13 个摄像头;3 个来自 Innoviz 的远程激光雷达;6 个同样来自 Innoviz 的闪光激光雷达(Flash Lidars);以及 5 个成像雷达。这些是由 Mobileye 制造的,非常非常特别的雷达,我们去年谈到过。目前大约有 100 辆车在我之前提到的所有站点进行测试。
接下来的里程碑是:Level 4 级别的车辆将在今年 2 月,也就是下个月准备就绪;我们将于第三、第四季度在美国进行无驾驶员(Driverless)测试,然后在 2027 年开始扩展到多个城市,合作伙伴还包括优步(Uber)等。这一切都在大众汽车和 MOIA 的框架下进行。
这里只是为了展示测试的广度,使用 ID. Buzz 在多个城市、多种地理环境(包括雪地)进行测试。其中一个被称为“美国启动城市”(US launch city),我们仍然对该城市的身份保密,但想法是在第三季度在那里启动。
现在,我很高兴邀请 Christian Senger 上台,他是大众汽车自动驾驶出行的 CEO,也是 MOIA 的董事长。我们这里有一个片段会在我们交谈时在背景中播放。有请 Christian。
第四部分:与 Christian Senger 的对话
(Christian Senger 上台)
Amnon:Christian,谢谢你加入我们。我们在 ID. Buzz 上已经合作了两年,我认为这是一个很好的伙伴关系。给我讲讲你的看法,为什么你认为我们很合适?这种伙伴关系目前的进展如何?
Christian Senger: 谢谢 Amnon。我认为简单的回答是,我们有着绝对清晰的角色分工和共同的愿景。从第一天起,我们就统一了一个简单的想法:如果每个合作伙伴都专注于自己最擅长的事情,自动驾驶出行将以经济高效的方式实现规模化。大众带来了工业规模的车辆和认证(Homologation)。Mobileye 带来了最先进的 Level 4 系统。而我们通过大众集团的新实体 MOIA 将其很好地集成到一个交钥匙解决方案中,打造自动驾驶出行即服务(MaaS)的产品。我们都在做我们最擅长的事。这就是为什么我们的伙伴关系运作得非常好。
Amnon:很好。那么让我们强调一下接下来的里程碑。我们面前有非常激动人心的一年。我们的测试车队增长了很多。我们现在在世界各地的多个站点有超过 100 辆 ID. Buzz 车辆。所以我认为我们处于一个很好的位置。让我们谈谈接下来的里程碑。
Christian:没错。今天我们有超过 100 辆 ID. Buzz AD 车辆在欧洲和美国运行。更多车辆即将到来。我们在慕尼黑、汉堡,我们在奥斯陆,但也在奥斯汀和洛杉矶。更多地点即将到来。在非常不同的交通、天气条件以及法律体系下进行真实世界测试的规模,这在行业中是罕见的。ID. Buzz AD 是一个完美的平台,利用了整个大众集团的技术。
Amnon: 是的,我认为我们共同所做的事情也有巨大的协同效应,而且是双向的协同效应。一方面,我们受益于与保时捷、奥迪等大众高端品牌合作的 Supervision 和 Chauffeur 带来的规模经济。例如,存在通用的硬件,ID. Buzz 有两个 ECU 板,这是我们在保时捷 Supervision 上使用的 SV62 的复制。所以这方面有规模经济。同时,我们受益于通过 ID. Buzz 收集的所有数据,这是无价的数据。我们有 360 度的采集,不仅是视频,还有激光雷达和雷达,我们有能够从这些数据中创建自动真值(Automatic Ground Truth)的技术。所有这些让我们能够加强和改进我们所有的传感技术,这同样适用于我们的 Supervision 和 Chauffeur。所以这种双向协同效应非常非常强。Christian: 这真的是一个很好的点。我记得在前几年,每个人都在谈论创建一个从 Level 2 到 Level 4 的可扩展自动驾驶系统。现在大众集团、MOIA 和 Mobileye 实际上正在做到这一点。我们在 2025 年看到的开发进程甚至加强了我们对这条道路的信心。我真的花了很多时间在车里,看到了性能,看到了我们对持续改进的关注,这是随时间推移打造产品的关键。我们去年已经发布了 ID. Buzz 的量产版本,这是全自动驾驶版本,是第一款完全为这一目的打造的车辆。我们在身后的图表中可以看到。展望未来,到今年第三季度,我们预计整个 MOIA 生态系统将上线,包括车辆、Mobileye 自动驾驶系统、用于车队控制的软件平台、远程指导以及所有次要驾驶任务等等。随后将在 2026 年底在美国推出无驾驶员服务,随后在 2027 年进行欧盟认证。此后我们将迅速进行市场扩张。
Amnon:非常好,我们准备好支持所有的规模化。我想知道你对市场发展的看法是什么?市场将向何处去?
Christian: 关键的教训是,自动驾驶已经从技术挑战转变为规模化和商业模式的挑战。规模化仍然很困难。突破来自于专业化和强大的生态系统模型,而 MOIA 正好处于这个交汇点。我们要完成两项任务。首先,我们要集成车辆和自动驾驶系统,将其结合到我们自己的软件和服务工具中,为我们的客户打造一个真正的交钥匙解决方案。简而言之,我们将供应端提供的产品与需求端需要的结合成一个准备好用于自动驾驶出行的交钥匙解决方案。这就是我们的生态系统逻辑和我们的首发阵容:
ID. Buzz AD:一款专用的安全车辆,在生产线上就已经安装了自动驾驶系统 Drive 64,由大众的工业规模赋能,并由物流和售后能力支持。
Mobileye 的数字司机(Digital Driver):一个基于超过 20 年 ADAS 经验、全球数据基础(刚才你解释得很好)和工业经验的 Level 4 自动驾驶系统。
MOIA 的生态系统平台:这是新的部分,连接生态系统的软件骨干,包括乘客管理、车队控制、远程指导、安全监督和实时监控。它能够连接到多个预订平台。
最后,真正让我们与众不同的是我们结合两个世界最佳的能力:大众的工业规模和高产量制造,以及 MOIA 强大的技术专长、合作伙伴关系和深厚的城市出行经验。
该平台支持多种用例,从 Robotaxi 到拼车,再到穿梭巴士和线路服务,服务于世界各地的需求生成者和运营商。因为它是作为一个生态系统建立的,它的扩展速度更快,显著降低了成本,并能更早达到盈亏平衡点。这引导我们制定了一些非常明确的目标:到 2027 年底覆盖 6 个城市,到 2033 年底有超过 100,000 辆活跃的自动驾驶车辆在路上行驶。
Amnon:令人惊叹。这真的非常令人惊叹。再次感谢你的加入和强有力的伙伴关系。
Christian:是的,我们在过去两年里一直保持着良好的合作关系,我期待着非常光明的未来。正如你所说,游戏的关键在于规模。技术现在可以运作已经很清楚了,现在的问题是如何规模化,我相信与 MOIA 和大众一起,我们可以做到。
Amnon:非常感谢 Christian。
(掌声)
第五部分:技术深潜(Under the Hood)
好的,让我们继续。我现在想借此机会深入了解一下“引擎盖下”的技术。我每次都喜欢挖掘一下技术细节。
我要讲的是 Robotaxi 的技术栈,但这与我们要讲的所有技术栈——Supervision、Chauffeur,甚至下探到 Surround ADAS 和前视 ADAS——都有很多共享组件。
构建这样一个技术栈基本上需要考虑三件事:
利用现代 AI:如何最好地利用现代 AI、生成式 AI,无论是视觉语言模型(VLM)、视觉语言动作模型、快思考与慢思考(稍后我会谈到)。有很多“漫画式”的方法(Caricature approaches),人们虽然提到但并不会真的那样做,因为这只是为了让投资者听起来顺耳的简化版本。我会深入探讨真正正在做的细节。
验证方法论:假设你在 Robotaxi 中收集了足够的数据,确信自己可以在一个城市进行无驾驶员驾驶。现在你想扩展到另一个城市。你需要收集多少数据?这是验证的一部分。
规模经济:四年后的传感器设置会是什么样?我们对于如何降低成本有一定的想法,比如减少传感器套件(稍后我会提到)。
远程操作(Tele-operations):更重要的是,在 Robotaxi 设置中,存在这种每个人都知道但不常谈论的远程操作。如果你每一辆车都需要一个远程操作员,你就没有生意可做,什么都没完成。所以你需要立志做到一个远程操作员管理许多许多辆车,并最终渐进地实现无远程操作。这才是建立业务的方式。Christian 提到了 100,000 辆车。我们不想在后台有 100,000 名远程操作员,甚至 50,000 或 10,000 都不行。你如何渐进地处理这个问题?你可以从一辆车一个操作员开始,但之后你需要确信你有办法大幅减少这个比例。
当我们看自动驾驶的要素时,左边的两列与我们如何利用 VLM(视觉语言模型)有关。提醒一下,视觉语言模型是一种 Transformer,输入是图像和文本,输出是文本。如何以合理的方式利用 VLM?
那种“漫画式”的方法是:像素输入,中间有一个网络(比如 Transformer 或 VLM),然后轨迹指令输出。没有人这样做,因为有很多原因说明这是错误的。首先,这些网络会产生幻觉(Hallucinate)。我们从 ChatGPT 和 Gemini 语言模型中知道它们会产生幻觉。这意味着在我们的世界里,当你有东西可能产生幻觉时,你如何提供安全保证?其次是样本复杂度(Sample complexity)的问题。样本复杂度是你为了泛化所需的数据量。感知的样本复杂度远小于规划的样本复杂度,因为规划是多智能体的。所以样本复杂度有复合效应。把它们放在一起从样本复杂度的角度来看是没有意义的。
所以当我们看研究时——最近的学术论文以及该领域参与者的博客——他们有专门的头部(Heads)来创建“感知状态”(Sensing State)。感知状态是对汽车周围所有对象和所有相关信息的记录,因为这将降低样本复杂度。所以突然之间你需要标记数据。这不仅仅是输入和指令输出,然后用司机给你误差信号。你现在必须标记周围的所有对象。这增加了另一个细微差别,另一个复杂性。
所以漫画式的方法只是个漫画。现实中有一些细微差别。人们注意到(这实际上始于机器人技术)的是,当问题是你想要破译一个非常复杂的场景时,VLM 可能是一个非常有趣的工具,因为它已经接受了互联网上所有数据的训练,想象一下在所有 YouTube 视频上进行训练,所以它对场景理解有非常强的感知力。但对场景理解的需求是稀疏的。你不需要以 10 赫兹(10Hz)的频率做这件事,不需要每秒 10 帧。
因此出现了一个概念叫做**“快思考与慢思考”(Fast and Slow)**。这出现在学术论文中(如理想汽车的 DriveVLM 系统),出现在 Waymo 的博客中,也出现在机器人领域(如 Figure AI 的 Helix 系统)。这意味着你有一条快速路径,它是每秒 10 帧,负责所有的安全层;然后你有一个慢速系统,可能是每秒一帧或两帧,在需要时进行深度场景理解。
那么如何将快与慢结合起来?第三列是策略(Policy)。策略是规划,是决策制定。策略的样本复杂度非常非常高,因为它是多智能体复合效应。主车在世界上执行一个动作,这个动作会影响其他道路使用者。因此存在这种复合效应。当你遇到这种非常高复杂性的问题时,你需要大量大量的数据。现在的真实世界数据是有限的。即使你有数百万辆车发送数据,它仍然是有限的。你可以在模拟器上运行,比如照片级真实的模拟器,并在模拟器上进行训练,但那样你就受限于算力。因为在照片级真实模拟器上运行需要大量大量算力。假设目标是训练 10 亿小时的驾驶。这对于真实数据来说是不现实的,对于照片级真实模拟器来说也是不现实的,因为算力限制。那么该怎么做?这里有一些有趣的创新。
最后一个是端到端(End-to-end)。端到端很重要,因为在端到端中,你从指令反向传播(Back propagate)回系统的输入,并优化真正重要的东西。因为你可能有一些无关紧要的感知错误,或者你有可能会累积的感知错误,当你做反向传播时,你可以抑制这种累积。所以端到端在这方面很重要。构建系统后,你想做最后这步端到端的微调,以优化真正重要的东西。通常这要求你的所有组件都是可微分的(Differentiable)。这就是你做反向传播的方式。但这并不一定是这种情况,我会提到的。
架构解析:
让我们把这些要素放入一个架构中。蓝色的部分是我想要展开讲的。
从左边开始:传感器(摄像头、激光雷达、雷达),以及高精地图。在 Robotaxi 世界里,没有 Robotaxi 是在没有高精地图的情况下行驶的。所以你有地图,可能有其他遥测数据。所有这些进入一个端到端感知网络。
即使这也并不完全准确。我这里写的是端到端感知网络,但在现实的机器学习中,有一个概念叫做“捷径学习”(Shortcut Learning)。这意味着如果你有两个来源,一个具有高样本复杂度,另一个具有低样本复杂度。例如,激光雷达具有低样本复杂度,因为它们记录 3D 数据;摄像头不记录 3D 数据,你必须从 2D 图像推断 3D,所以摄像头的样本复杂度要高得多。如果你做这种低级融合,将它们输入同一个网络,网络将倾向于走捷径,只依赖激光雷达。所以你必须稍微复杂一点。让我们假设你有一个用于摄像头的网络和一个用于激光雷达的网络,然后你有一个进行融合的网络。但我们不深入那个分辨率。我们称之为端到端感知网络。
这个网络现在输出一个感知状态(Sensing State)。感知状态是汽车周围所有相关信息的记录:车辆在哪里、车辆类型、车道、红绿灯、行人过马路等等。正如我之前提到的,你必须输出感知状态。即使是那些谈论纯端到端的人,他们也有一个特殊的头部来输出感知状态,因为你需要降低样本复杂度。这是有学术论文支持的。
现在这个感知状态进入蓝色的框ACI,我稍后会提到,它负责驾驶策略(规划)。它接收感知状态作为输入,也接收来自慢速路径(VLM)的输入。我们称之为VLSA。S 代表语义(Semantic)。所以它是一个视觉语言语义动作模型(Vision Language Semantic Action model),我会稍后展开。它做出决策,进入安全层,安全层接收指令输入和感知状态,并采用 RSS 和 PGF(我去年讲过的东西),然后输出指令。
这里有两个创新的模块(蓝色框):
1. ACI (Artificial Community Intelligence - 人工群体智能)
这是 Mobileye 独有的,尽管也有学术论文讨论这个。我们想要在模拟数据上进行训练。现在这不是照片级真实的模拟,而是感知状态模拟。这意味着你有一张地图,在地图上你可以放置代理(Agents):汽车、公共汽车、行人等,然后你开始模拟。你可以生成任意多的数据。你还可以生成有趣的数据,因为当我们谈论真实世界数据时,大多数数据是无聊的。你想以更高的密度注入边缘情况(Edge cases)。模拟环境允许你这样做。而且因为输入是感知状态,它不是照片级真实的,所以我们可以生成比真实数据大得多的数据量。其次,我们不受算力限制。
灵感来自于 AlphaGo 和 AlphaGo Zero,一个叫做**“自博弈”(Self-play)**的概念。简而言之,DeepMind 在 2015 年推出了玩围棋的强化学习系统,他们模仿了人类的对弈,取得了令人印象深刻的结果。一年后,他们推出了真正令人难以置信的东西(AlphaGo Zero),完全没有人类数据。系统所做的是自己与自己对弈。它可以训练更多的数据,因为它不受人类数据量的限制。这个自博弈的概念就是我想要展示的灵感来源。
我们称之为 ACI。想法是使用自博弈来训练规划。我们要怎么做?我们有一张地图,现在我们可以利用我们的 REM 地图。基本上我们有全世界的地图。然后你在地图上放置代理。当你训练驾驶策略时,挑战之一是你在训练你的策略,你想成为一个安全的司机。但你需要对其他代理的驾驶策略做出假设,而它们不一定是安全的司机。所以你不能假设其他代理使用和你一样的驾驶策略。在这种类型的模拟中,你正在创建所有可能的驾驶策略。这意味着首先你有运动学概况(行人、卡车、汽车是不同的)。然后你有奖励权重。你可以对鲁莽驾驶、快速驾驶、慢速驾驶、违反交通规则的人设置奖励。所以你可以创造很多很多行为。你可以编写成百上千种不同的行为。然后你对每个代理进行增强(Augmentations)。比如急刹车、违反或不违反交通规则。通过这种方式,你创建了所有可能行为的超集。然后你进行强化学习,目标是:到达目的地,并且不要发生碰撞。
我们的独特之处在于两点:
我们利用我们的 REM 地图。所以我们不仅仅是拿某个有数据的城市来训练,我们可以利用全世界的地图数据。
Sim-to-Real(仿真到现实):你是在模拟器上训练,但你想将其移至现实世界。你需要了解感知引擎的噪声模型,因为感知引擎并不完美。我们开发了非常复杂的技术来进行这种 Sim-to-Real 转移。
现在让我向你们展示这意味着什么。我们这里有 12 个代理(车)。圆圈是目的地。当代理到达目的地时,它会从模拟中消失。然后你有斑马线和停车标志。
经过数十小时的训练后:12 个代理没有一个到达目标,并且发生了 6 次碰撞。看起来很糟糕。
经过 140,000 小时训练后:所有代理都到达了目的地,但发生了两次碰撞。
经过 280 万小时训练后:所有代理都到达了目标,并且零碰撞。
我们不是在训练数百万小时,我们在训练数十亿小时。我们有一个集群,可以在一夜之间训练这数十亿小时。这非常重要。我们不仅用它来训练驾驶策略,也用它来验证驾驶策略。
比如 Robotaxi,我们要扩展到一个新城市。我们有新城市的高精地图。我们拿那个地图,训练 10 亿小时,以验证这个新城市中没有任何地图方面的不熟悉情况。例如,可能有一个非常特殊的四向停车路口,有多条车道,你在做之前的 10 亿小时训练时没有遇到过。通过这种方式,你可以一夜之间验证地图中没有任何东西会对你的驾驶策略造成不熟悉的情况。
2. VLSA (Vision Language Semantic Action - 视觉语言语义动作模型)
这是慢速路径。当你看到一个复杂的场景时,你会问自己发生了什么,我该怎么做?通常在 Robotaxi 设置中,你会问远程操作员。远程操作员会告诉你:在左边你需要让行给警察,忽略红绿灯;在右边你的车道被堵住了,你需要根据目的地左转或右转。这不需要每秒 10 帧。这就是为什么它是慢思考。快系统输出轨迹(每秒 10 帧,经过安全层)。慢系统是在场景非常复杂时获得非常深度的理解。在 Robotaxi 的背景下,这提供了一种渐进地完全移除远程操作员的方法。我们构建了一个系统,VLM 的输出不是轨迹。慢系统输出的是脚本(Script)。把它想象成**随行成年人(Accompanying Adult)**陪同年轻司机。随行成年人没有控制方向盘、油门和刹车。他说话。他和年轻司机说话并给出指导。这就是这个慢系统所做的。说话对语言模型来说非常自然,比输出轨迹自然得多。你看右边,就像在填表:
动作类型:静态交互
目标框:红色的目标框
可能性:不能通过
动作类型:导航。指令:右转。
或者:动作类型:暂时忽略红绿灯。关系:向警察让行。
这就是随行成年人所做的,也是 VLSA 所做的。它输出语义信息进入 ACI(规划层),ACI 同时接收感知状态和来自慢系统的信息。
关于端到端支持:正如我之前提到的,端到端作为训练的最后阶段很重要,用于传播误差。通常人们假设整个序列是可微分的,但这里你有不可微分的元素(如感知状态、VLSA)。但在语言模型中已经有了解决方案。语言模型有工具来处理这些。它们使用强化学习进行这种端到端训练。所以即使路径中有不可微分的元素,我们也可以支持端到端。
我希望这不会太复杂。我只是想说明我们要远离那些漫画式的方法,设计一个系统来最好地利用现代 AI。
第六部分:未来路线图与芯片技术
现在我要把这些结合起来,看看未来五年的发展。
Supervision (Level 2+):这是一种“眼在手离”(Eyes-on/Hands-off)的系统。这里的挑战仅仅是降低成本。司机负责。
Chauffeur (Level 3):这里的产品演进是从“脱眼”(Eyes-off)到“脱脑”(Mind-off)。
在 2030 年代,我们要达到规模化。这需要两件事:
降低传感器组和算力的成本。我们开发成像雷达就是为了长远考虑,我们认为第二代 Robotaxi 可以仅依赖摄像头和成像雷达,也许再加上一个前视激光雷达。
降低远程操作员与车辆的比例,渐进地不需要任何远程操作员。这就是我们开发 VLSA 的原因。
芯片技术栈:
这是 EyeQ7,已经出样(Sampled),准备量产(PPAP ready)是在明年,2027 年第三季度。
我想谈谈它能做什么,而不是谈论 TOPS(每秒万亿次操作)。我们将 EyeQ6 High(将于 2027 年随 Surround ADAS 推出)与竞争对手的芯片(如 Nvidia Orin X)进行比较。我们选取了两类非常相关的工作负载:
卷积网络 (ResNet 50)。
视觉 Transformer。
右边是 Nvidia 报告的延迟:0.64 毫秒。而我们是 0.5 毫秒。在视觉 Transformer 上差距更大:900 万参数的视觉 Transformer,他们是 1.5 毫秒,我们是 0.5 毫秒。这意味着我们的芯片真的是为这些类型的工作负载量身定做的。
那么 EyeQ6 和 EyeQ7 如何运行 VSSA/VLM?
EyeQ6 High:我们可以以 2.5 赫兹运行 38 亿参数的 VLM。这对于慢系统来说已经足够了。38 亿参数是一个相当不错的规模。
EyeQ7:我们可以运行 156 亿参数的模型。
我们对 VSSA 的愿景是,在 Robotaxi 的世界里,既然我们在谈论慢系统,且输出的是文本而非轨迹,那么其中一部分可以在云端运行。我们看到三层:
片上运行(On chip):第一层。
云端运行:第二层,谈论的是 700 亿参数的网络,成本对于 Robotaxi 来说并不大(每辆车几百美元),比拥有远程操作员便宜得多。以 2 赫兹在云端运行。
按需运行(On demand):万亿参数模型。不是每秒运行,而是当系统不知道该怎么做时提问(就像问远程操作员一样)。现在你有一个像 Gemini 3 这样的模型告诉你该怎么做。
产品组合看起来是这样的:
Supervision:两颗 EyeQ6 High。这里的目的是降低成本。EyeQ6 High 的成本是竞争芯片的 1/5 到 1/10。
Chauffeur (Level 3):运行在三颗 EyeQ6 上,分布在两个板上(需要硬件冗余)。
Mind-off:现在添加 EyeQ7 甚至 EyeQ8 来做 VLSA。这不是你想发送到云端的东西,因为这是消费级车辆。
Robotaxi:第一代是四颗 EyeQ6,其中一颗做 VLSA(38 亿参数),其余在云端。第二代(2029 年左右)将有一颗 EyeQ7 或 EyeQ8 在板上做更多事情,减少对云端的依赖,并将传感器组减少到仅摄像头和成像雷达。
第七部分:Mentee Robotics 与物理人工智能
现在我进入物理 AI 的下一个方面。Mobileye 是一家在物理 AI 领域工作的 AI 公司,但只涉及物理 AI 的一个方面,即自动驾驶。大多数人使用的 AI 是在数字空间开始并在数字空间结束的。物理 AI 是指决策是在现实世界中做出的。在现实世界中运作的东西主要有两样:汽车和机器人。Jensen(黄仁勋)去年称之为物理 AI,我认为这是一个很好的术语。Mobileye 希望将其范围扩展到物理 AI 的所有方面,因为在技术层面上有很多协同效应(快与慢系统、VLM、模拟、Sim-to-Real)。
区别在于:汽车在结构化的世界中运行(虽然不简单,但是结构化的),而机器人在非结构化的世界中运行。比如家庭使用,所有房子看起来都不同,而且任务数量是开放式的。
Mentee Robotics 展示:
这是他们开发的第三代机器人:
身高:175 厘米
体重:72 公斤
负重:25 公斤(这对于物流中心很重要)
可更换电池,可 24/7 工作。
运行在两颗 Orin 芯片上。
手部设计:非常有意思。通常为了保持灵巧性会使用肌腱和传感器,这会增加成本。Mentee 做的是刚性连杆(Rigid links),不需要指尖传感器,因为直接连接到电机,有反向反馈。
AI 能力:第一个核心原则是 Sim-to-Real。在模拟器上进行强化学习训练,然后移至现实世界。我要展示的片段没有远程操作。全是全栈 AI。
(播放视频:两个机器人连续工作 18 分钟,搬运箱子。视频中展示了机器人的内部思维:计算机视觉、导航、指令跟随。)
接下来是指令跟随的端到端演示:“给我拿另一个椰子”。(视频展示:机器人理解指令,导航到厨房,识别所有物体,用绿色框标出相关物体,向人展示椰子,然后导航回去。这是开箱即用的能力,不需要模仿学习。)
接下来展示手部的灵巧性(这部分是远程操作的,为了展示手的硬件能力):使用电钻,在手之间移动物体。这些手造成本非常低。
关键创新:Real-to-Sim-to-Real
如果你想让机器人在家庭等非结构化环境中运行,你不能为每个客户定制。你需要机器人能够持续学习和泛化。客户向机器人展示一个任务。机器人观看,将视频发送到云端。在云端,我们有一个基础模型,将此视频转换为模拟环境。在模拟内部,有一个 RL(强化学习)循环来学习任务。然后它移回机器人。这就是 Real-to-Sim-to-Real(现实到仿真再到现实)。
(视频演示:)
观察(Observe):人类向机器人展示如何更换电池。
仿真训练:在云端创建模拟环境。经过 100 次、500 次、1000 次迭代。目前训练大约需要 3 小时,但量产时将只需几分钟。
现实执行:机器人执行人类展示的任务。
这就是为什么公司叫 Mentee(学徒/被指导者)。想法是人类(即使是外行客户)指导机器人一个新任务,机器人就能学会。
路线图:
2026 年:开始与多个客户进行 POC(概念验证)。我们已经与 Amovio(前身是 Amovio,现更名为 Amuio)签署了协议,他们将是我们的生产合作伙伴。
2027 年:开始制造第一批实验批次。
2028 年:商业部署的第一阶段(物流中心、装配厂等结构化环境)。
2030 年代末:进入家庭使用。这就是 Real-to-Sim-to-Real 变得至关重要的地方。
总结
这为 Mobileye 提供了新的增长引擎。我对人形机器人非常乐观。我相信 10 年后会有数百万台机器人。存在劳动力短缺(物流中心周转率高,工作枯燥且易受伤;家庭护理如养老等)。AI 技术发展如此迅速,只需将其产品化。
这是一个非常激动人心的 Mobileye 新阶段。我们称之为 Mobileye 3.0。2.0 是在被英特尔收购后。现在我们进入 3.0。正如你们所见,Robotaxi 正在路上,我们有很好的规模化愿景。归根结底,规模化才是关键。我们有消费级汽车的产品组合,现在又有了一个新的增长引擎。AI 技术栈真的令人兴奋。
我就讲到这里,谢谢大家。
651