扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

理想亮牌:VLA,是物理AI时代的入场券

1小时前
235
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

作者|刘佳艺

白雪还是那身皮衣、还是那个男人以及信息量爆炸的演讲现场。转眼间科技春晚,从苹果发布会变成了 NVIDIA GTC 大会。这里成了全球 AI 界华山论剑的舞台,在自家主场上,NVIDIA 将物理 AI 重压在自动驾驶上。NVIDIA 一口气拿出了突围 L4 自动驾驶全家桶:围绕自动驾驶底座 DRIVE Hyperion 的安全架构、新一代开放推理模型以及交互式仿真模型。在 GTC 自动驾驶分会场,中国玩家气场强大,理想基座模型负责人詹锟在 GTC 剧透了理想下一代自动驾驶架构 MindVLA-o1。詹锟也成了国内少数能与英伟达自动驾驶部门负责人吴新宙、特斯拉 AI 副总裁 Ashok Elluswamy 同台演讲的基座模型负责人。这就如李想所说,「理想内部的大量 90 后、95 后已经胜任技术研发一号位角色」。2025 年结束,理想的账户里还躺着 1021 亿现金储蓄。这也意味着理想在物理 AI 上的布局都可以再想远一点,甚至是一种从终局倒推研发,去思考理想新一代智驾之于物理 AI 的价值。这种对 AI 的倔强,李想和黄仁勋是类似的。黄仁勋坚信,尽管 NVIDIA 自动驾驶业务营收仅占其营收的 1%,但自动驾驶在技术层面已经是一个被解决的问题,它将会成为数万亿美元量级市场。而李想坚信,自动驾驶是可以打造出类人的「硅基世界」。无形中,理想已经通过 GTC 大会回应了一切:卖车与搞 AI,其实从不矛盾。01VLA,物理 AI 的提速器当今的 AI 分两种:一类数字 AI,另一类物理 AI。前者在虚拟世界里思考,擅长处理信息、生成内容并帮助用户做出决策,整个处理过程都存在于比特世界中。后者则需要先感知再决策,最后还要执行物理动作。物理世界的交互行为,注定了物理 AI 比数字 AI 更需要精确推理与及时反应。这也就造成了一个现象:相比数字 AI,物理 AI 发展缓慢。数字 AI 短短两年,就经历了从被动提问的 Deepseek,再到主动执行的 Open Claw 的转变。而以具身智能、自动驾驶为代表的物理 AI,相比起来仍然差距甚远。机器人还没能走入千家万户帮用户洗衣服、干家务,自动驾驶发展距离 L4 好像永远跑不完「最后 500 米」。就连轻舟智航创始人于骞也发出灵魂质问:「为什么 10 年前 AI 就能打败人类围棋冠军,在自动驾驶领域却仍然难以媲美人类驾驶能力?」问题出现在了哪里?从自动驾驶进化过程可以看到答案。第一阶段:规则时代。自动驾驶偏规则系统,系统迭代缓慢,每个模块都依靠大量人工经验调参。第二阶段上半场:初级 AI 时代。自动驾驶系统依靠端到端 VA(视觉-行动)架构为主,从视觉输入再到行动,这种直驱模式主要依靠模仿学习,类似于昆虫思考,需要大量数据量堆砌后,看到物体才能下意识做出反应。第二阶段下半场:类人 AI 时代。自动驾驶系统拥有多模态输入、输出,例如,在 VA(视觉-行动)架构之间就要增加「思考模块」。
因此物理 AI 慢于数字 AI 的原因在于——模型对物理世界的思考还不够。想想看,从 2024 年年底中国智驾玩家切换至端到端架构,其实才不到两年。这段时间,还不足以让所有人完全解决智驾的「思考问题」。这一阶段的自动驾驶,在呼唤新的技术范式,可以在端到端基础上,把模型「会思考」的问题解决。理想又一次成为「破壁人」。这次 GTC 上,理想发布命名为 MindVLA-o1 的新 VLA 架构,全称为「基于统⼀Vision Language-Action 的 Omni 架构」。
这一架构不仅直面了当下 VLA 的主流问题,包括:

    3D 空间、语言思考和行为之间存在对齐效率不够理想长尾场景 (需要合成数据和强化学习)高计算成本与内存开销

以及,它真正让自动驾驶向 L4 关键能力迈进,从詹锟演示的视频可见:车辆有了自主识别、思考的能力。
车型行驶在两侧停满车的双车道上,驾驶员提出「帮我把车停到前面橘色车子旁边」的语音指令之后,车辆就找准右前方橙色 SUV,自主准确停车。这种能把人类语言指令,进行拆分理解、思考之后,生成行驶轨迹的能力,在行业内是非常少见的。另外,该模型还能延展到具身智能机器人场景。
理想首次对外展示了,新架构在机器人领域的「可移植能力」。既可以通过控制机械臂实现倒饮料的动作任务,也可以在给定真实世界前视图的情况下,进行俯视角操作。这些都说明了,理想新一代 VLA 模式,不仅把自动驾驶带入了一个全新阶段,也打开了通向物理 AI 世界的入口。02看向终局,造出「硅基人」的数字大脑理想之所以坚定押注 VLA,源于它对物理 AI 的前瞻判断。2024 年底第一场 AI Talk 上,李想就笃定认为,AI 最终会进化成「硅基家人」。当时,一家车企高调谈论 AI、具身智能,很容易被理解为「不务正业」。结果,恰恰相反。从「AI 定义汽车」的切口往里深挖,这件事其实顺理成章。汽车本就是一个大号机器人:传感器负责感知环境,计算系统负责决策,底盘与电机负责执行动作。相比机器人、机械臂尚且缺乏高质量数据源,汽车的成长空间显然更具确定性。从这个角度看,自动驾驶很可能是物理 AI 最先落地的场景。今年 CES 上,黄仁勋再次强调了类似判断:AI 正在从数字世界走向物理世界。因此,把汽车与具身智能绑定,不是跨界,而是一条非常自然的技术演化路径。它的终点,很可能就是一个能够像家人一样理解、陪伴甚至主动关怀人的「硅基人」。这也与理想此前提出的「司机 Agent」概念形成了某种呼应,一个可以替代人类驾驶的智能体,本质上就是「硅基人」的雏形。问题随之变得更加具体:如果汽车的终点是「硅基人」,那么它的「大脑」应该长什么样?MindVLA-o1 就是理想的答案。上一阶段的 VLA 司机大模型,解决的是多模态统一的问题:视觉、语言和动作被放进同一个模型框架。MindVLA-o1 往前走了一步,打造出一套完整的认知系统。其中最关键的第一步,是让 AI 建立起真正的「3D 世界观」。当前 AI 视觉训练存在一个典型误区:只要让 AI「看够」视频,它就能学会开车。但现实没那么简单。二维图像能够告诉模型「看见了什么」,却很难告诉它「物体之间的空间关系」。举个例子,正前方几十米外停着一辆大卡车人类司机会自然判断出卡车的距离、高度以及车道宽度,然后安全绕行。但如果 AI 只是一个「二维脑」,它会做出两种错误决策,要么过度保守直接刹停,要么从看似存在的空隙中强行通过。原因就在于,这样的 AI 无法计算出车头到卡车侧面、后视镜与卡车尾部等关键的安全边界。人类在成长早期就建立了这种空间直觉,AI 也需要类似的过程。理想给出的解决方式是 3D ViT。
相比传统 BEV(鸟瞰图)方案容易丢失高度信息,3D ViT 能够更完整保留三维结构,同时叠加语义信息,让模型既知道「哪里有东西」,也知道「那是什么」。训练过程中,视频流被重建为三维场景,空间位置、点云、语义和像素被统一编码,再由 3D ViT 提取空间特征。这个过程有点像教小孩接球,一开始很难接到,但在很长一段时间里,大人不断把球扔过去,直到某一天,他突然能判断球的轨迹。空间直觉一旦形成,动作就会变得自然。不过,理解空间只是第一步,真正的挑战是把看见、思考和行动连成一个闭环。为此,MindVLA-o1 引入了多模态思考能力。模型不仅要识别场景,还要对交通行为进行推理,并预测接下来可能发生什么。为了让这种推理能力更加可控,理想在这里加入了一层关键结构:预测式隐世界模型。
可以把它理解成一个 AI 推理用的「模拟沙盘」。在真正行动之前,模型会先在隐空间里推演不同决策可能带来的结果,再选择最优策略。有意思的是,特斯拉在 FSD V14 中引入的高斯泼溅技术也在试图解决类似问题:为自动驾驶构建一个更加连续、真实的三维环境表示。当 AI 面对多车交互、遮挡或突发行为时,这种「先在脑中演练一遍」的能力,会明显提高决策稳定性。值得一提的是,作为硅基人的「数字大脑」,MindVLA-o1 的能力边界显然不止于自动驾驶,正如在演讲中詹锟强调,它同样可以扩展至机器人及各种物理系统,并且已经有了演示雏形。在理想构建的一整套面向具身智能的 AI 框架中,具备环境理解、推理和生成预测能力的 MindVLA-o1,依然充当了最坚实的底座。而为什么从自动驾驶开始?因为在所有物理世界任务里,自动驾驶是唯一一个具备高频交互、强约束环境、海量真实数据、以及闭环反馈的场景。理想的战略,是将自动驾驶从一项具体的垂直应用,升维为孕育通用物理 AI 的训练场。通过在驾驶场景中不断积累对现实世界的通用理解与行动能力,为未来模型向更广泛场景的迁移奠定基础。这才是它在通用物理 AI 时代卡位的真正筹码。03车企懂 AI,才能造好下一代车如果把电车的演进方向简单划分,大概会有三种:第一种是传统老路,电车依然只是电车,继续堆配置、拼参数,在既有产品框架里做数据更新。第二种稍微有点新意,电车变成智能终端,把手机和电脑的娱乐、办公体验搬进车里,本质是换了一块屏幕。第三种则完全不同,电车变成机器人。它能够自动驾驶,也能理解环境、主动行动,成为用户生活中的智能伙伴。前两种充其量是优化,只有第三种,才是进化。追溯汽车工业史,能称之为「进化」的更新不多,内燃机出现是一次,油转电是一次,而 AI 主导的智能化驱动,又会是新一次。如果汽车变成一个可以感知、思考并行动的智能体,决定体验上限的,将会是模型基座能力。所以,不会做 AI 的车企,依然可以造车,但很难定义下一代车。理想只想当定义者。
今年二季度,理想会推出全新一代理想 L9,它是理想第一台完全按照具身智能体逻辑打造的车,传统汽车谈结构、动力、制造等,但理想在这台车上,却安上了「硅基人」的结构:

    大脑:MindVLA-o1;心脏:马赫 100 芯片;神经系统:星环 OS 操作系统;身体:800V 全主动悬架与全线控转向。

只生硬套一层概念的话,不符合理想的作风。有两点值得说明,其一,具身智能体的车没有参照物,从大脑到身体,理想又是全栈自研;其二,新一代理想 L9 的目标是拉开代际差,除了最强基座 MindVLA-o1,马赫 100 芯片也是绝对杀手锏,两颗总算力达到了 2560TOPS,单颗有效算力是 Thor-U 的三倍。改革不会只在产品层面,造出一台具身智能机器人的公司,必须是一家具身智能公司。理想今年大刀阔斧的组织重构,目标就是为了让公司结构,匹配「造一个智能体」的复杂度。如何按照智能体逻辑造车,就如何按照智能体逻辑开展工作,据悉,理想研发体系不再按软件与硬件划分,而是按照人体结构拆分为四个系统:

    脏器系统负责芯片、数据与操作系统等基础能力;脑系统专注于感知、预训练、强化学习等 AI 能力;软件本体负责构建系统级 Agent;硬件本体则面向具身智能设计能源、驱动与控制体系。

带来的直接结果,是迭代效率的跃迁,按照李想说法,自动驾驶模型从两周一更,变成了一天一更。市场从不怀疑新势力的改革魄力,何况它是理想。现阶段,理想已经完成了从车企向具身智能企业的蜕变,两点可以说明:第一,理想是少数真正以「产品经理逻辑+AI 能力」驱动自动驾驶的企业。相比之下,特斯拉更强调工程效率,华为遵循生态逻辑,小鹏偏重技术导向。理想的独特之处在于,始终从「用户需要什么体验」出发,再思考如何借助 AI 实现这一体验。第二,理想是行业内首个明确提出「司机 Agent」概念的企业。当大多数企业仍停留在功能优化层面时,理想已经以终局思维和系统视角展开布局,着眼于构建一个具备思考与执行能力的智能体。不难发现,理想有两件事始终没变。一是它还在造车,但不是让汽车与 AI 简单叠加,而是用 AI 驱动的方式,打造司机与生活助理——不仅能运输,还能接孩子、取快递。二是它的落点,始终是「车与家」。还记得四年前,理想 L9 用「冰箱、彩电、大沙发」在激烈的汽车市场中撕开一道裂缝,把汽车变成了「移动的家」。四年后,全新一代 L9 登场,目标依然不变:改善用户家庭生活。技术革新换代,但理想还是理想。

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录