小米智驾两年三跳？2026年有啥技术新突破？

从小米开始造车到现在，它似乎一直在话题的中央，无论是在刚发布新车时的高调期，到后来被众多网友口诛笔伐的质疑期，再到现在回归本源的沉稳期，小米的一举一动似乎都被全网关注。

作为一个专注于智驾的平台，我们也一直关注着小米智驾的发展，其实从2024年的规则驱动，到2025年的端到端神经网络，再到2026年以认知驱动为核心的XLA大模型和OneVL模型，小米用两年时间完成了三次底层技术架构的跃迁。今天智驾最前沿就带大家来盘一盘小米智驾！

从模仿到理解，技术路线经历了怎样的转变？

2024年3月，小米辅助驾驶系统在第一代SU7上首次量产，当时行业的主流方案是无图城市领航，小米也采用了类似的路线，其系统依赖大量人工编写的规则，分别处理感知、规划和控制等子任务。这种方案在规则有限的场景下可以工作，但随着道路场景越来越复杂，规则数量急剧膨胀，最终陷入了维护困难的处境，人工规则不可能穷举真实世界里所有可能发生的情况，系统的上限很快被触及。

2025年，智驾行业的整体思路发生了变化，开始从规则驱动转向端到端架构。所谓端到端，就是不再把自动驾驶拆成感知、预测、规划、控制等多个独立模块，而是直接将传感器的原始数据输入一个统一的深度神经网络，由模型自己学习从输入到驾驶动作的映射关系。

小米在2025年2月推出了第一版端到端辅助驾驶系统，同年7月又迭代到了1000 Clips版本，将真实驾驶场景的训练数据规模提升到了百万量级。端到端方案让加减速更加平顺，变道决策更加果断，因为这些行为不再需要人工用规则去定义，而是由模型从海量驾驶数据中自动提取。

不过，端到端方案本质上仍然属于模仿学习的范畴，模型通过观看大量的人类驾驶数据来模仿驾驶行为，但并不会真正理解为什么要这样开。它的工作方式更接近背诵题库，也就是遇到训练数据中见过的场景，就表现不错；一旦遇到训练数据中从未出现过的长尾场景，模型就会因为缺乏理解能力而做出不合理的决策。也就是说，仅靠堆数据和扩大模型规模，并不能从根本上解决泛化问题。

从2025年下半年开始，小米的技术方向开始从数据驱动向认知驱动转型，也就是尝试让模型理解环境的物理规律和因果关系，而不是模仿人类的表面行为。这个思路最终在2026年3月，随着新一代SU7的发布，以XLA认知大模型的形式落地。

XLA认知大模型，认知驱动意味着什么？

XLA是小米辅助驾驶的第三代软件架构，2026年3月正式发布，XLA中的X代表多模态输入（Multi-modal Inputs），即系统不只接收摄像头拍摄的图像，还融合了激光雷达点云、4D毫米波雷达信号、导航信息、车内麦克风音频，甚至包括来自小米机器人研发过程中产生的物理交互数据。

这种多模态输入的设计出发点很明确，不同传感器在物理特性上是互补的，摄像头提供密集的语义信息但受光照影响大，激光雷达能给出精确的三维几何结构但在雨雾中衰减严重，4D毫米波雷达则在恶劣天气下依然稳定，且能测量目标的高度信息。把这些不同来源的信号在模型输入端统一处理，系统对环境的理解就会比单一依赖视觉的方案更加完整。L代表融入智能语言，A代表执行过程，将他们合在一起构成了一个以多模态认知为核心的技术框架。

支撑XLA架构的底层模型，是小米自研的Xiaomi MiMo-Embodied具身基座大模型，这个基座模型能同时在辅助驾驶场景数据和室内机器人物理交互数据上进行训练。工厂里机器人抓取零件、拧螺丝、放置物料这些精细操作所涉及的空间感知与推理能力，通过混合训练的方式迁移到了车辆对道路场景的理解中。

这种跨域训练策略不是简单的多任务学习，而是利用不同任务背后的公共物理规律，即无论是机器人在工位上操作螺丝，还是车辆在路口判断行人运动轨迹，本质上都需要对三维空间的几何关系、物体的运动趋势、接触与碰撞的物理约束进行建模。用一个统一的基座模型来承载这些能力，可以在更底层、更通用的层面提升模型的推理质量。

基于MiMo-Embodied基座，XLA架构带来了几个实质性的能力提升。在行车场景中，系统对复杂路口的通行策略更加合理，纵向速度控制更加平滑，不再出现急加速急减速的情况。在安全方面，全系标配包括紧急转向辅助、盲区监测与干预、前向碰撞预警等25项安全辅助功能。在功能创新方面，XLA首次支持语音控车，驾驶员可以直接用自然语言指令控制辅助驾驶的相关功能，还推出了商场地库的车位级领航功能，可以在没有GPS信号的地下停车场内完成从入口到目标车位的全程引导。

值得一提的是，XLA还打通了辅助驾驶和具身机器人两大技术任务，这意味着同一个模型架构可以同时支撑车辆的自动驾驶规划和机器人的操作学习。从长期研发效率的角度看，这种统一架构可以避免维护两套独立技术栈的重复投入，同时让两个方向的数据和算法形成互相促进的效应。

Xiaomi OneVL开源发布，凭什么把两条技术路线统一了？

2026年5月13日，小米正式发布并全面开源了自动驾驶模型Xiaomi OneVL，全称是一步式潜空间语言视觉推理框架，这是在XLA技术方向上的一次深度推进，也是最值得关注的一项技术进展。

在理解OneVL解决了什么问题之前，先给大家介绍两条独立的技术路线。第一条是VLA，即视觉-语言-动作模型（Vision-Language-Action）。VLA的思路是让模型以思维链的方式逐步推理，即先理解当前场景中有哪些对象，再用自然语言描述场景状态，最后基于这个描述输出驾驶动作。它的优势在于可解释性强，你能看到模型在每一步想了什么。但VLA的问题也很明显，其推理过程需要生成大量自然语言文本，自回归解码速度慢，难以满足车载场景对实时性的要求。

第二条是世界模型（World Model）路线，它让模型学习环境中的物理因果规律，在内部脑补未来可能发生的情况，再据此规划行为。世界模型擅长预测和预判，但不像VLA那样具备清晰的可解释性，也就是你不知道模型为什么做出了某个预测。这两条路线各有侧重，但此前一直处在相对独立的发展路径上。

OneVL的核心创新，是找到了一种方式将这两条路线统一起来，这个方式叫做潜空间推理。通俗地解释这个方式，也就是传统的思维链推理是把推理过程展开成人类可读的自然语言文本，逐步生成、逐步判断。潜空间推理则是把推理过程压缩到一个高维的、向量化的潜空间中直接完成逻辑推演，不再展开为自然语言。这个潜空间中承载了VLA的场景理解能力和世界模型的环境预测能力，但所有运算都发生在向量层面而非文本层面，因此推理速度可以大幅提升。

OneVL提出了三项关键技术来支撑这个方案。第一，让模型用自己的内部语言进行思考，而不是受限于自然语言的表达效率；第二，让模型学会预测未来的视觉画面，这对应世界模型的预测能力；第三，把整个推理过程压缩到一步完成，即一步式推理，避免多步自回归带来的延迟累积。

从实测性能来看，这套方案的效果相当可观。Xiaomi OneVL的推理延迟最低仅0.24秒，仅为传统VLA自回归推理时间的5.4%。在精度方面，它超越了显式思维链方法，同时在ROADWork、Impromptu、Alpamayo-R1等多个主流基准测试上刷新了潜在推理方法的性能上限。它还能为模型决策提供语言和视觉双维度的可解释性，既可以用文字说明为什么这样开，也可以用预测画面展示接下来会发生什么。这意味着OneVL在精度、速度和可解释性三个维度上找到了一个平衡点。

小米已将OneVL的模型权重、训练代码和推理代码全部开源，对于行业来说，开源一个同时具备VLA推理能力和世界模型预测能力的自动驾驶基础模型，不仅降低了大模型研发的门槛，也为学术研究和工程探索提供了一套可以复现和对比的基准方案。

硬件层面，传感器和计算平台如何支撑这些算法？

软件算法的进步必须以匹配的硬件平台为前提，新一代SU7全系标配了由1颗激光雷达、1颗4D毫米波雷达、11个高清摄像头和12个超声波雷达组成的多传感器融合方案。

每个传感器承担着不同的角色，激光雷达位于车顶最突出的位置，是系统最重要的前向感知硬件，最远探测距离约200米。它的核心能力是精确测量前方空间的三维形态，包括道路边界、车道结构、前方障碍物的轮廓等。而且激光雷达不依赖环境光，在夜间或暗光条件下依然能稳定工作。

4D毫米波雷达集成在前保险杠中央，这是新一代车型新增的核心感知硬件。传统的3D毫米波雷达只能测量距离、水平方位和速度三个维度的信息，无法感知高度，因此容易出现误判。4D毫米波雷达在3D基础上增加了俯仰角的测量能力，也就是能够检测障碍物的高度信息，从而有效区分路牌、高架桥、地面井盖与真正需要避让的障碍物。

此外，毫米波雷达在雨、雪、雾等恶劣天气下依然保持较好的穿透和感知能力，这是摄像头和激光雷达都难以比拟的优势。它可以准确判断前方侧方动态目标的距离、速度和运动趋势，为系统提供“风险是否在快速靠近”这类关键的动态信息。

11个高清摄像头分为7颗周视摄像头和4颗环视摄像头，分别负责远距离的行驶路况感知和近距离的车身盲区监控，12个超声波雷达则分布在车身周围的关键盲区位置，负责泊车和低速挪车时对近距离障碍物的精确探测。四种传感器各司其职又互为冗余，确保系统在不同场景、不同天气、不同光照条件下都能获得可靠的感知输入。

新一代SU7还全系搭载NVIDIA DRIVE AGX Thor芯片，算力为700 TOPS，较前代双Orin方案提升约37.8%。Thor是NVIDIA面向L2至L4级别自动驾驶设计的新一代集中式计算平台，在芯片层面就支持激光雷达融合感知、复杂路径规划算法和多路传感器数据的并行处理。700TOPS的算力为XLA认知大模型和OneVL这类重度计算任务在车端的实时推理提供了充裕的计算资源。

配套的电子电气架构也做了相应升级。新一代SU7采用了四合一域控制模块设计，将辅助驾驶、智能座舱、通信和整车控制整合到统一的架构中，核心搭载高通第三代骁龙8移动平台和NVIDIA DRIVE AGX Thor芯片，支持双5G双卡双通、三蓝牙、双Wi-Fi和5个UWB定位锚点。这种高集成度的电子电气架构有助于降低各域之间的通信延迟，提高数据传输效率，为多传感器数据的实时融合和模型的快速推理提供底层支撑。