理想汽车搭配128 TOPs J6M和激光雷达方案的AD Pro推送支持城区NOA的OTA,算是开启2026高阶城区NOA的普及浪潮。而这个背后的算法供应商来自于轻舟,轻舟也紧接着理想AD Pro支持城区NOA的发布,开了一场轻舟的发布会。
具体轻舟方案可以点击《高阶城区NOA快速奔向2030年的50%渗透率》查看,但同时轻舟也顺水推舟的分享和广告了下其VLA与世界模型架构,大概率这套算力平台应该来自于地平线的J6P。
这张架构图展示的是轻舟智航下一代自动驾驶模型架构,核心理念是将 VLA(Vision-Language-Action,视觉-语言-动作模型) 与 World Model(世界模型) 融合到一个端到端(End-to-End)的系统中。
根据上图可以看到,大体分五个主要部分:
1. 输入层包括 Lidar, Image, Navi, Cmd这是系统的感知输入。除了常规的激光雷达(Lidar)和视觉图像(Image),还包括导航信息(Navi)和驾驶指令(Cmd)。其中驾驶指令应该包括语言控车。
2. World Encoder输出 Object, OCC, BevRG, FVP它负责对当前环境进行高效编码和理解。图中上方显示它输出了 Object(障碍物)、OCC(占用栅格)、BevRG 等显性的中间表征,这便于监督和调试。
3. Transformer Decoder输出COT (Chain of Thought)思维链COT (思维链): 通过LLM推理环境信息,给出解决因果推理问题。大概COT (思维链)的产品形态会通过图片文字交互显示。例如通过对world encoder输出的环境解读看到水坑,推理出“快速通过会溅水弄湿行人”(COT),所以减速。
4. Multi-Modal World Decoder输出 Agent, Map Topology, RGB, 2D Semantics, Language多模态世界解码,能推演未来。它通过生成未来的 RGB 图像或 Agent 轨迹,来“脑补”接下来几秒会发生什么。
Language (语言对齐): 图中输出的 Language 是为了轻舟的“对齐机制”。语言在这里不是为了聊天,而是将云端的知识、人类的规则(如交规、礼让)与车端的驾驶行为对齐,提升泛化性。
5. 最终执行Safe RL with Reward & Rule Critics 输出TrajectoryTrajectory (轨迹): 最终输出给车辆的行驶轨迹。轻舟提了一个Safe RL (安全强化学习)概念,这应该是给端到端模型兜底的东西。
为了防止大模型“产生幻觉”或开得太激进,轻舟引入了 Rule Critics(规则评价器)。这意味着模型生成的轨迹必须符合安全规则(如不撞人、不压实线)。这是将 AI 的灵活性与传统控制的安全性相结合。这算是轻舟对VLA与世界模型架构的理解和工程应用。
参考资料以及图片
*未经准许严禁转载和摘录-获取本文参考资料方式:加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。
475