扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

元戎启行的40B VLA自动驾驶基座模型和方法论

03/23 09:31
1133
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

元戎作为中国辅助驾驶/自动驾驶算法供应商的后起之秀,在这两年来量产车辆大幅度上升,拥有长城、吉利、甚至传言拿下了新势力零跑的业务。而且元戎也是比较早喊“VLA”甚至量产"VLA"的供应商。所以,算是有量产也有前瞻的自动驾驶解决方案提供商,本次GTC 2026 元戎的CTO 曹通易做了名为《Redefining the Boundaries of Autonomous Driving with Foundation Model》的演讲,分享了其基于Foundation model基模的VLA方法和理论。

本文通过演讲和行业知识分享下此次演讲的核心内容和亮点。元戎启行(DeepRoute.ai)解决自动驾驶,甚至走向 L5 级别的核心思路,是坚信“Scaling Law(扩展定律)”,通过构建统一的基座大模型来驱动模型尺寸和数据规模的同步爆发。

这里也看出目前行业内对当前端到端发展起来的各种技术比较自信,看到了自动驾驶的曙光,目前行业的核心重点是,优化算法也加大模型参数、推动算力芯片上升、优化工程落地。以下是元戎其基座大模型架构与自动驾驶软件方法的硬核技术亮点:

一、 基座大模型(40B VLA)的原理与架构技术亮点

元戎基于1亿Gb的视频构建了一个参数量为 40B 的原生 VLA(视觉-语言-动作)大模型, 小鹏也在去年年底表示其研发了基于2亿Clips(推断 大约10亿Gb数据)训练的72B(720亿)参数超大规模模型。

元戎表示其训练机制和端侧部署上进行了以下底层创新:

1. 架构创新:“三位一体”的模型角色这个大模型打破了仅作为“驾驶员”的单一设定。它在同一个模型中集成了三种能力:驾驶员、分析师以及评论员/裁判。这种能力复用不仅让认知和场景理解得以共享,还能有效提升驾驶任务本身的性能。解读就是这个模型能看懂视频等传感器输入数据流,推理和分析,最终给出结论好坏。

2. 预训练(Pre-train)原理突破:从“轨迹监督”转向“视频预测”传统的端到端模型通常依赖驾驶轨迹进行监督训练,但这存在极大的数据浪费——1 PB 的驾驶视频中,轨迹数据仅占约 10 GB,数据利用率仅为 0.001%。元戎在预训练阶段创新性地采用了视频预测任务来让模型理解世界,这意味着视频的每一个像素都能作为监督信号,数据利用率达到 100%,从而为超大参数模型提供了极高质量的物理世界表征。

3. 中端训练(Mid-train)的跨模态推理融合在掌握了对世界的理解后,模型会进行三种核心任务的联合训练:

V+A(视觉+动作):学习常规的端到端驾驶,典型的端到端架构。

V+A -> L(行动后解释):激活分析师和裁判角色,输入视觉和动作序列,输出对关键事件的抽象描述、行为因果解释以及好坏评判。

V -> L+A(多模态逻辑推理):训练带推理能力的司机。给定视觉输入,利用思维链(CoT)让模型先输出关键事件的语言描述和决策逻辑,再输出具体的驾驶轨迹。

4. 极致的车端部署优化与量产蒸馏,根据GTC上曹通易的表述,目前元戎的VLA在车端可能实现了 10-15 Hz 的实时闭环控制(为什么实时闭环控制重要可以点击我们之前文章《揭秘特斯拉 FSD 核心:端到端算法的“三大难点”与“独门解法”以及对语音控车的想法》了解)。

元戎表示其引入了 KV Cache(历史特征免重复计算,这个理想在本次GTC也表示采用了,具体可以看我们理想GTC 2026文章)、多 Token 预测(MTP)、量化技术以及定制化的推理引擎,将包含 1000 个视觉 Token 和数十个推理 Token 的单步处理延迟严控在 60-85 毫秒以内。

此外,基座大模型可以根据车端芯片算力进行灵活“蒸馏”:在 100 TOPS 平台上部署纯驾驶的 VA 模型,在 500 TOPS 平台上即可部署带有逻辑推理能力的 VLA 模型。

二、 自动驾驶软件与数据方法亮点

在软件和数据工程层面,元戎彻底重构了数据闭环和仿真系统,解决了“无聊数据损害模型”和人工介入效率低下的行业痛点:

1. 大模型全面接管的极速数据闭环传统的数据闭环(发现问题、诊断、挖掘、标注、训练)严重依赖人工或小型规则模型,一个循环往往耗时 5 天(100 小时以上)且能力无法沉淀。元戎直接利用前文提到的基座大模型(其分析师和裁判能力)接管了数据挖掘、自动诊断、思维链(CoT)标注以及动作评分等全流程。这不仅将闭环周期从 5 天极速缩短至 12 小时,更重要的是,闭环过程中产生的所有人工 Review 和机器标注结果,都会沉淀为大模型中端训练的新养料,实现 AI 能力的飞轮递增。

2. 突破长尾场景的数据合成技术面对现实中难以收集的罕见高危场景(Long-Tail Scenarios),元戎采用了先进的生成式与合成技术:

3D 重建与风格迁移:利用 Nvidia 的 3D GUT 进行高保真重建,并用 Cosmos 模型实现天气和光照的风格迁移,将一个白天的素材转化为雨天或夜间的变体。

DiPIR 插入式编辑:这是元戎自研的技术,能够将生成的 3D 行人、骑行者或动物(如公路上突然窜出的羊)无缝插入到真实的道路视频中,并自动匹配光照和阴影,系统性地批量生成“极其危险且难以捕捉”的训练数据。

3. 仿真环境下的强化学习(RL)自我进化在仿真回测中,元戎的模型不再单纯依赖人工标准答案(在极端场景下人类也很难标注出完美轨迹)。基座大模型可以在重建的仿真场景中自己“采样(Rollout)”出多条不同的驾驶解决方案(比如遇到违规加塞时,是选择体感不佳的急刹,还是选择横向避让)。

随后,模型内部的“评论员(Critic)”会结合预设的安全和舒适度规则,对这些轨迹进行行为分析和评分。通过这种闭环强化学习(RL Policy Optimization)的持续迭代,模型能够在极其复杂的边缘场景中输出更安全、更精准的决策。

以上就是元戎启行在本次GTC 2026分享的核心内容,欢迎留言交流更多核心背后的算法信息。

参考资料以及图片

    Redefining the Boundaries of Autonomous Driving with Foundation Model -元戎启行 曹通易

*未经准许严禁转载和摘录-获取本文参考资料方式:加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。

元戎启行

元戎启行

元戎启行致力于打造“物理世界的通用人工智能”,以创新技术打造AI司机,实现RoadAGI,引领人工智能行业变革。元戎启行由CEO周光博士带领团队于2019年创立,总部位于深圳,在北京设有研发中心,在硅谷、德国、新加坡、上海、成都、重庆、保定等地均有业务落地。元戎启行已完成6轮融资,累计融资金额超5亿美元。2024年11月,元戎启行完成由国内头部主机厂独家投资的C1轮融资。 元戎启行始终坚持自主创新,成功推出不依赖高精度地图、应用端到端模型的智能驾驶平台DeepRoute IO,以及新一代VLA模型(视觉-语言-动作模型)。凭借富有竞争力的产品和服务,元戎启行已与多家车企达成量产合作,共同推进十余款组合辅助驾驶汽车落地。预计到2025年,将有超20万辆搭载元戎启行组合辅助驾驶方案的车辆进入消费者市场。元戎启行相信智能驾驶技术将为通用人工智能的实现带来全新契机,开启人类智能发展的新篇章。

元戎启行致力于打造“物理世界的通用人工智能”,以创新技术打造AI司机,实现RoadAGI,引领人工智能行业变革。元戎启行由CEO周光博士带领团队于2019年创立,总部位于深圳,在北京设有研发中心,在硅谷、德国、新加坡、上海、成都、重庆、保定等地均有业务落地。元戎启行已完成6轮融资,累计融资金额超5亿美元。2024年11月,元戎启行完成由国内头部主机厂独家投资的C1轮融资。 元戎启行始终坚持自主创新,成功推出不依赖高精度地图、应用端到端模型的智能驾驶平台DeepRoute IO,以及新一代VLA模型(视觉-语言-动作模型)。凭借富有竞争力的产品和服务,元戎启行已与多家车企达成量产合作,共同推进十余款组合辅助驾驶汽车落地。预计到2025年,将有超20万辆搭载元戎启行组合辅助驾驶方案的车辆进入消费者市场。元戎启行相信智能驾驶技术将为通用人工智能的实现带来全新契机,开启人类智能发展的新篇章。收起

查看更多

相关推荐