理想亮牌：VLA，是物理AI时代的入场券

作者｜刘佳艺

白雪还是那身皮衣、还是那个男人以及信息量爆炸的演讲现场。转眼间科技春晚，从苹果发布会变成了 NVIDIA GTC 大会。这里成了全球 AI 界华山论剑的舞台，在自家主场上，NVIDIA 将物理 AI 重压在自动驾驶上。NVIDIA 一口气拿出了突围 L4 自动驾驶全家桶：围绕自动驾驶底座 DRIVE Hyperion 的安全架构、新一代开放推理模型以及交互式仿真模型。

在 GTC 自动驾驶分会场，中国玩家气场强大，理想基座模型负责人詹锟在 GTC 剧透了理想下一代自动驾驶架构 MindVLA-o1。詹锟也成了国内少数能与英伟达自动驾驶部门负责人吴新宙、特斯拉 AI 副总裁 Ashok Elluswamy 同台演讲的基座模型负责人。这就如李想所说，「理想内部的大量 90 后、95 后已经胜任技术研发一号位角色」。

2025 年结束，理想的账户里还躺着 1021 亿现金储蓄。这也意味着理想在物理 AI 上的布局都可以再想远一点，甚至是一种从终局倒推研发，去思考理想新一代智驾之于物理 AI 的价值。这种对 AI 的倔强，李想和黄仁勋是类似的。黄仁勋坚信，尽管 NVIDIA 自动驾驶业务营收仅占其营收的 1%，但自动驾驶在技术层面已经是一个被解决的问题，它将会成为数万亿美元量级市场。而李想坚信，自动驾驶是可以打造出类人的「硅基世界」。无形中，理想已经通过 GTC 大会回应了一切：卖车与搞 AI，其实从不矛盾。

01、VLA，物理 AI 的提速器

当今的 AI 分两种：一类数字 AI，另一类物理 AI。前者在虚拟世界里思考，擅长处理信息、生成内容并帮助用户做出决策，整个处理过程都存在于比特世界中。后者则需要先感知再决策，最后还要执行物理动作。物理世界的交互行为，注定了物理 AI 比数字 AI 更需要精确推理与及时反应。这也就造成了一个现象：相比数字 AI，物理 AI 发展缓慢。

数字 AI 短短两年，就经历了从被动提问的 Deepseek，再到主动执行的 Open Claw 的转变。而以具身智能、自动驾驶为代表的物理 AI，相比起来仍然差距甚远。机器人还没能走入千家万户帮用户洗衣服、干家务，自动驾驶发展距离 L4 好像永远跑不完「最后 500 米」。就连轻舟智航创始人于骞也发出灵魂质问：「为什么 10 年前 AI 就能打败人类围棋冠军，在自动驾驶领域却仍然难以媲美人类驾驶能力？」问题出现在了哪里？从自动驾驶进化过程可以看到答案。

第一阶段：规则时代。自动驾驶偏规则系统，系统迭代缓慢，每个模块都依靠大量人工经验调参。

第二阶段上半场：初级 AI 时代。自动驾驶系统依靠端到端 VA（视觉-行动）架构为主，从视觉输入再到行动，这种直驱模式主要依靠模仿学习，类似于昆虫思考，需要大量数据量堆砌后，看到物体才能下意识做出反应。

第二阶段下半场：类人 AI 时代。自动驾驶系统拥有多模态输入、输出，例如，在 VA（视觉-行动）架构之间就要增加「思考模块」。

因此物理 AI 慢于数字 AI 的原因在于——模型对物理世界的思考还不够。想想看，从 2024 年年底中国智驾玩家切换至端到端架构，其实才不到两年。这段时间，还不足以让所有人完全解决智驾的「思考问题」。这一阶段的自动驾驶，在呼唤新的技术范式，可以在端到端基础上，把模型「会思考」的问题解决。

理想又一次成为「破壁人」。这次 GTC 上，理想发布命名为 MindVLA-o1 的新 VLA 架构，全称为「基于统⼀Vision Language-Action 的 Omni 架构」。
这一架构不仅直面了当下 VLA 的主流问题，包括：

3D 空间、语言思考和行为之间存在对齐效率不够理想长尾场景 (需要合成数据和强化学习）高计算成本与内存开销

以及，它真正让自动驾驶向 L4 关键能力迈进，从詹锟演示的视频可见：车辆有了自主识别、思考的能力。

车型行驶在两侧停满车的双车道上，驾驶员提出「帮我把车停到前面橘色车子旁边」的语音指令之后，车辆就找准右前方橙色 SUV，自主准确停车。这种能把人类语言指令，进行拆分理解、思考之后，生成行驶轨迹的能力，在行业内是非常少见的。另外，该模型还能延展到具身智能机器人场景。

理想首次对外展示了，新架构在机器人领域的「可移植能力」。既可以通过控制机械臂实现倒饮料的动作任务，也可以在给定真实世界前视图的情况下，进行俯视角操作。这些都说明了，理想新一代 VLA 模式，不仅把自动驾驶带入了一个全新阶段，也打开了通向物理 AI 世界的入口。

02、看向终局，造出「硅基人」的数字大脑

理想之所以坚定押注 VLA，源于它对物理 AI 的前瞻判断。2024 年底第一场 AI Talk 上，李想就笃定认为，AI 最终会进化成「硅基家人」。当时，一家车企高调谈论 AI、具身智能，很容易被理解为「不务正业」。结果，恰恰相反。

从「AI 定义汽车」的切口往里深挖，这件事其实顺理成章。汽车本就是一个大号机器人：传感器负责感知环境，计算系统负责决策，底盘与电机负责执行动作。相比机器人、机械臂尚且缺乏高质量数据源，汽车的成长空间显然更具确定性。从这个角度看，自动驾驶很可能是物理 AI 最先落地的场景。

今年 CES 上，黄仁勋再次强调了类似判断：AI 正在从数字世界走向物理世界。因此，把汽车与具身智能绑定，不是跨界，而是一条非常自然的技术演化路径。它的终点，很可能就是一个能够像家人一样理解、陪伴甚至主动关怀人的「硅基人」。这也与理想此前提出的「司机 Agent」概念形成了某种呼应，一个可以替代人类驾驶的智能体，本质上就是「硅基人」的雏形。

问题随之变得更加具体：如果汽车的终点是「硅基人」，那么它的「大脑」应该长什么样？MindVLA-o1 就是理想的答案。上一阶段的 VLA 司机大模型，解决的是多模态统一的问题：视觉、语言和动作被放进同一个模型框架。MindVLA-o1 往前走了一步，打造出一套完整的认知系统。其中最关键的第一步，是让 AI 建立起真正的「3D 世界观」。

当前 AI 视觉训练存在一个典型误区：只要让 AI「看够」视频，它就能学会开车。但现实没那么简单。二维图像能够告诉模型「看见了什么」，却很难告诉它「物体之间的空间关系」。举个例子，正前方几十米外停着一辆大卡车人类司机会自然判断出卡车的距离、高度以及车道宽度，然后安全绕行。但如果 AI 只是一个「二维脑」，它会做出两种错误决策，要么过度保守直接刹停，要么从看似存在的空隙中强行通过。原因就在于，这样的 AI 无法计算出车头到卡车侧面、后视镜与卡车尾部等关键的安全边界。人类在成长早期就建立了这种空间直觉，AI 也需要类似的过程。理想给出的解决方式是 3D ViT。

相比传统 BEV（鸟瞰图）方案容易丢失高度信息，3D ViT 能够更完整保留三维结构，同时叠加语义信息，让模型既知道「哪里有东西」，也知道「那是什么」。训练过程中，视频流被重建为三维场景，空间位置、点云、语义和像素被统一编码，再由 3D ViT 提取空间特征。这个过程有点像教小孩接球，一开始很难接到，但在很长一段时间里，大人不断把球扔过去，直到某一天，他突然能判断球的轨迹。空间直觉一旦形成，动作就会变得自然。

不过，理解空间只是第一步，真正的挑战是把看见、思考和行动连成一个闭环。为此，MindVLA-o1 引入了多模态思考能力。模型不仅要识别场景，还要对交通行为进行推理，并预测接下来可能发生什么。为了让这种推理能力更加可控，理想在这里加入了一层关键结构：预测式隐世界模型。

可以把它理解成一个 AI 推理用的「模拟沙盘」。在真正行动之前，模型会先在隐空间里推演不同决策可能带来的结果，再选择最优策略。有意思的是，特斯拉在 FSD V14 中引入的高斯泼溅技术也在试图解决类似问题：为自动驾驶构建一个更加连续、真实的三维环境表示。当 AI 面对多车交互、遮挡或突发行为时，这种「先在脑中演练一遍」的能力，会明显提高决策稳定性。

值得一提的是，作为硅基人的「数字大脑」，MindVLA-o1 的能力边界显然不止于自动驾驶，正如在演讲中詹锟强调，它同样可以扩展至机器人及各种物理系统，并且已经有了演示雏形。在理想构建的一整套面向具身智能的 AI 框架中，具备环境理解、推理和生成预测能力的 MindVLA-o1，依然充当了最坚实的底座。而为什么从自动驾驶开始？因为在所有物理世界任务里，自动驾驶是唯一一个具备高频交互、强约束环境、海量真实数据、以及闭环反馈的场景。

理想的战略，是将自动驾驶从一项具体的垂直应用，升维为孕育通用物理 AI 的训练场。通过在驾驶场景中不断积累对现实世界的通用理解与行动能力，为未来模型向更广泛场景的迁移奠定基础。这才是它在通用物理 AI 时代卡位的真正筹码。

03车企懂 AI，才能造好下一代车

如果把电车的演进方向简单划分，大概会有三种：第一种是传统老路，电车依然只是电车，继续堆配置、拼参数，在既有产品框架里做数据更新。第二种稍微有点新意，电车变成智能终端，把手机和电脑的娱乐、办公体验搬进车里，本质是换了一块屏幕。第三种则完全不同，电车变成机器人。它能够自动驾驶，也能理解环境、主动行动，成为用户生活中的智能伙伴。

前两种充其量是优化，只有第三种，才是进化。追溯汽车工业史，能称之为「进化」的更新不多，内燃机出现是一次，油转电是一次，而 AI 主导的智能化驱动，又会是新一次。如果汽车变成一个可以感知、思考并行动的智能体，决定体验上限的，将会是模型基座能力。所以，不会做 AI 的车企，依然可以造车，但很难定义下一代车。理想只想当定义者。

今年二季度，理想会推出全新一代理想 L9，它是理想第一台完全按照具身智能体逻辑打造的车，传统汽车谈结构、动力、制造等，但理想在这台车上，却安上了「硅基人」的结构：

芯片

只生硬套一层概念的话，不符合理想的作风。有两点值得说明，其一，具身智能体的车没有参照物，从大脑到身体，理想又是全栈自研；其二，新一代理想 L9 的目标是拉开代际差，除了最强基座 MindVLA-o1，马赫 100 芯片也是绝对杀手锏，两颗总算力达到了 2560TOPS，单颗有效算力是 Thor-U 的三倍。改革不会只在产品层面，造出一台具身智能机器人的公司，必须是一家具身智能公司。

理想今年大刀阔斧的组织重构，目标就是为了让公司结构，匹配「造一个智能体」的复杂度。如何按照智能体逻辑造车，就如何按照智能体逻辑开展工作，据悉，理想研发体系不再按软件与硬件划分，而是按照人体结构拆分为四个系统：

脏器系统负责芯片、数据与操作系统等基础能力；脑系统专注于感知、预训练、强化学习等 AI 能力；软件本体负责构建系统级 Agent；硬件本体则面向具身智能设计能源、驱动与控制体系。

带来的直接结果，是迭代效率的跃迁，按照李想说法，自动驾驶模型从两周一更，变成了一天一更。市场从不怀疑新势力的改革魄力，何况它是理想。现阶段，理想已经完成了从车企向具身智能企业的蜕变，两点可以说明：

第一，理想是少数真正以「产品经理逻辑+AI 能力」驱动自动驾驶的企业。相比之下，特斯拉更强调工程效率，华为遵循生态逻辑，小鹏偏重技术导向。理想的独特之处在于，始终从「用户需要什么体验」出发，再思考如何借助 AI 实现这一体验。

第二，理想是行业内首个明确提出「司机 Agent」概念的企业。当大多数企业仍停留在功能优化层面时，理想已经以终局思维和系统视角展开布局，着眼于构建一个具备思考与执行能力的智能体。

不难发现，理想有两件事始终没变。一是它还在造车，但不是让汽车与 AI 简单叠加，而是用 AI 驱动的方式，打造司机与生活助理——不仅能运输，还能接孩子、取快递。二是它的落点，始终是「车与家」。还记得四年前，理想 L9 用「冰箱、彩电、大沙发」在激烈的汽车市场中撕开一道裂缝，把汽车变成了「移动的家」。四年后，全新一代 L9 登场，目标依然不变：改善用户家庭生活。技术革新换代，但理想还是理想。

理想亮牌：VLA，是物理AI时代的入场券

01、VLA，物理 AI 的提速器

02、看向终局，造出「硅基人」的数字大脑

03车企懂 AI，才能造好下一代车

相关推荐