理想汽车下一代基座模型Mind VLA-o1的架构和算法应用解析

在本次 GTC 2026 大会上，理想汽车的詹锟正式发布了其下一代自动驾驶基座模型——Mind VLA-o1。这一举动不仅预示着 VLA（视觉-语言-动作）架构将是理想汽车坚定不移的发展路线，也印证了行业的发展趋势。

从本次 GTC 各家发布的信息来看，VLA 已经成为自动驾驶汽车与具身智能领域的主流算法。正如我们在图文《具身智能算法两个流派 - VLA 和世界模型》中分享的那样，同样参加了本次 GTC 的宇树科技 CEO 王兴兴也在演讲 PPT 中展示了：VLA 是当前具身智能科研行业中占据绝对主导地位的算法。

1.真正VLA上车并没有那么容易：三座大山

然而，尽管理想汽车带头高呼 VLA 已经快一年，且业内有不少跟进者，但各家的实际体验却与广告或者Paper上写的相差甚远。在 GTC 的分享中，詹锟也坦言，当前业界主流的 VLA 模型在车端部署时，依然面临着以下三个关键难点：感知、语言与动作对齐的延迟问题：

在现有的架构中，3D 视觉理解、语言理解与最终的动作生成之间存在缓慢的对齐过程，这会导致显著的处理延迟，无法满足车端极高的实时性要求。

计算效率与系统成本的瓶颈： VLA 模型往往包含大规模的语言能力，这会带来非常庞大的计算量和内存开销。如何在算力受限的车端硬件系统中运行复杂的 VLA 大模型，是一个极为现实的挑战。

长尾场景的数据扩展难题：单纯依靠传统的实际数据采集方式，无法有效且规模化地覆盖自动驾驶中复杂罕见的“长尾场景”。

因此，要让真正的 VLA 大规模上车，就必须跨越这三座大山。

目前来看，第三个问题相对容易解决。随着各种虚拟仿真的成熟以及现实道路上测试车辆收集的数据日益增多，大家都有了一定的应对方案。但前两项难题，则必须依赖产业和软件技术随着时间不断迭代与发展。

基于此，理想汽车在本次 GTC 上发布的下一代自动驾驶基座模型 Mind VLA-o1，正是他们在软件层面提出的全新解法。当然，既然冠以“下一代”之名，大家也不要以为它现在就已经上车，或者抱有今年就能全面量产的过高期望（不过，考虑到理想汽车一贯的“卷”法，这也并非完全不可能）。

在发布会上，詹锟展示了该模型的发布简图。这是一个非常典型的端到端结构，每个模块都被整合进统一的模型中进行表征学习与决策推理。但需要提醒的是，这极有可能是为了方便大家理解而绘制的高度抽象图，现实中的网络架构必定比这复杂得多。詹锟强调，Mind VLA-o1 是一个“原生多模态”的 Transformer。

所谓原生多模态，是指在模型设计之初，就统一将视觉、语言、行动三种模态放在一起进行共识训练和对齐，而不是在后期才进行简单的模块组合。这种设计使得模型能够在一个统一的表示空间中运转，从而获得更高的计算效率和更强的泛化能力——这正是“端到端 VLA”的精髓所在。

2.Mind VLA-o1 输入层：构建 AI 的“五官感知”与“记忆”

首先，我们来看看系统的输入部分。在输入端，系统需要像人类一样，收集全面的环境信息和指令输入。具体来说，它包含以下几个主要的输入层和编码器：

感知与空间输入（Sensory Inputs）：接收来自多颗摄像头（Cameras）的视觉数据和激光雷达（Lidar）的三维几何数据。理想汽车一直强调他们采用了原生的 3D ViT 编码器。这些数据分别通过 3D ViT Encoder 和 Lidar Encoder 被提取，并直接编码成原生的 3D 空间 Token。这种直接对三维世界建模的方式，使得 AI 在特征提取阶段就能构建出真实的物理世界三维结构。

状态与导航输入（State & Navigation）：包括车辆当前的位姿（Pose）、GPS 定位以及导航路线（Nav）等信息。这些数据通过专用的 Encoder 被输入到系统中。

语言与指令输入（Language Commands）：接收乘客下达的自然语言指令（例如“把车停到橘色车旁”）。这些指令会通过文本分词器（Text Tokenizer）转化为大模型可以理解的语言特征。

上下文历史输入（Contextual Inputs）：系统还会接收用户的长期记忆（Long-term Memory）和用户偏好（User Preference），确保 AI 的决策能够更贴合特定的使用场景和车主的个人习惯。

从产品设计端来看，理想打造的是一个原生支持用户语音交互以及整合用户历史偏好记忆的 VLA 系统。理想也表示，他们在系统中保留了语言模型——这很可能是作为 MOE（混合专家）架构中的一个 Expert 存在的。

语言模型在系统中承担着几个关键角色：语义理解、常识知识以及交互能力。上述所有的输入信号，在被各自的 Encoder 编码后，会被统一注入到模型前端的 Prefill KV-Cache 中。

Prefill KV-Cache 是一项用于加速大语言模型（LLM）推理的技术：当系统输入提示词（Prompt）时，模型会先进入“预填（Prefill）”阶段，将所有输入 Token 的键（Key）和值（Value）预先计算出来并存入缓存（KV-Cache）中。这样一来，在随后的逐个生成（解码）阶段，系统就无需重复计算之前的内容，从而大幅提升了推理速度。

3.Mind VLA-o1 输出层：从“多模态思考”到“精准行动”

经过中间统一的 MOE 架构处理后，系统来到了输出层（Decode Output）。在这里，模型不仅会生成最终的驾驶动作，还会输出它对周围世界的理解和预判。这一层主要包含三个并行的输出模块：隐式世界模型（Latent World Model）：这是 AI 的“想象力”层。它并不会直接生成真实的图像画面，而是输出一组关于未来演变的隐空间表征（Future Latent Tokens）。

模型通过这一层，在脑海中模拟推演未来几秒内可能发生的情况（例如预判旁边的车是否会突然加塞）。系统能够在隐式空间中低成本地预判场景变化，从而辅助做出更优的决策。在做驾驶决策时，模型不仅理解当前场景并做出逻辑判断，还能在隐空间提前想象未来画面，具象化驾驶决策。理想将这种能力称为“多模态思考（Generative Multi-modal Thinking）”。

显式推理与决策（Reasoning Decision）：这是 AI 的“逻辑表达”层。模型（通过 LM head 等模块）会输出基于思维链（CoT Reasoning）的逻辑推理过程。它能够对复杂场景进行显式的语义分析和深层次的决策判断。这也就是理想汽车所说的“系统 2（System 2）”，同时也是目前各种 VLA 模型最擅长、且在产品显性化方面做得最好的部分。

高精度动作输出（Action Output / Trajectories）：这是系统改变物理世界的最终输出端。由专门负责行动的“动作专家（Action Expert）”整合前面的所有理解和预判后，通过行动头（Action head）直接生成具体的驾驶轨迹（Trajectories）。为了满足自动驾驶的实时性，理想在这里放弃了传统的“逐点生成”这种慢动作，转而采用“并行解码（Parallel Decoding）”技术同时生成所有的轨迹点。

此外，系统还结合了“离散扩散（Discrete Diffusion）”技术进行多步去噪优化，确保最终输出的轨迹既迅速响应，又平滑连续。总结来说，Mind VLA 通过多元化的感知、状态和语言输入层，在统一的 Transformer 架构内完成了对物理世界的复杂理解与脑内推演。最终在输出层，它能同步给出基于语言的显式逻辑推理、基于隐式世界模型的未来预判，以及低延迟、高精度的自动驾驶动作轨迹。

4.训练与部署：闭环强化学习与软硬件协同

在确立了端到端的架构后，接下来就是模型的训练阶段。理想汽车为此构建了一个闭环强化学习的框架。在这个框架中，模型不仅可以从真实采集的数据中学习，还能在“世界模拟器（World Simulator）”中不断进行探索和优化。也就是说，系统可以在模拟环境下不断尝试新的驾驶策略，并根据环境的反馈进行自我更新。目前，致力于自动驾驶算法研发的公司都已经积累了庞大的基础数据盘。

现在收集数据的重点，主要集中在利用人类接管的“困难数据集”来进行补充。随后，基于这些困难数据，结合 World Simulator 进行仿真测试、调整反馈，最终实现闭环的强化学习。

在构建 World Simulator 时，理想借助了 Nvidia Cosmos 和 Nvidia NeRF 这两款强大的工具，搭建起了统一的 3D GS 渲染引擎和分布式训练框架。有了 VLA 端到端的算法框架，以及基于虚拟仿真不断迭代训练的能力，自动驾驶算法面临的最后一道难关，就变成了“如何最优地利用现有的车端算力和内存带宽”。

针对这一问题，理想汽车表示，他们已经建立了一套将模型性能与硬件约束结合在一起的统一分析框架。这套软硬件协同的体系，将极大地帮助他们提升端侧 VLA 模型的设计效率与最终的部署速度。

5.结语：从自动驾驶向具身智能的跨越

总而言之，理想汽车 Mind VLA-o1 的发布，不能算是对当前自动驾驶技术底层逻辑的一次深度重构，但确实向更高阶的“具身智能”迈出的坚实一步。从本次 GTC 的全景来看，VLA 架构的大一统已经成为不可逆的时代潮流。

理想汽车通过原生多模态 Transformer、生成式多模态思考、闭环强化学习以及软硬件协同设计，直面了延迟、算力与长尾场景三大痛点，为行业探索“如何让 VLA 真正跑在车端芯片上”这一核心命题提供一种思考。虽然正如发布会上所坦陈的那样，这条技术路线上依然充满荆棘，真正完美无瑕的下一代 VLA 距离大规模量产普及还需要时间的淬炼与数据的喂养。

但不可否认的是，当系统真正拥有了原生多模态的感知、类似于人类的“系统 2”逻辑推演，以及在隐空间“做梦推演未来”的能力时，汽车的本质就已经发生了改变。它将不再仅仅是一个按照规则行驶的交通工具，而将演变成一个真正理解物理世界、能够自主决策的智能机器人。以 Mind VLA-o1 为代表的新一代基座模型，正是打开这扇具身智能大门的一把关键钥匙。

我们有理由相信，物理 AI 全面接管现实世界的未来，比我们想象中来得更快。最后，其实算法是自动驾驶重要的工具，但是自动驾驶产品却是与大家应用场景交互深刻的地方，有对自动驾驶产品感兴趣的朋友可以点击《《自动驾驶产品经理》适合哪些人看？有什么价值？》看看这本书。

参考资料以及图片

UnleashingtheOmni-ParadigmforNext-GenAutonomousDriving with UnifiedVLAModels pdf - 理想汽车詹锟

*未经准许严禁转载和摘录-获取本文参考资料方式：加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。