小鹏第二代VLA产品与技术全景解析

最近，小鹏正式发布了其第二代 VLA 模型。从一场干货满满的发布会中，我们不仅看到了显性的产品体验升级，更窥见了当前端到端自动驾驶底层架构的真实难点与演进趋势。

一、产品提升：精准切中用户心理锚点

从产品端来讲，小鹏这次的营销宣传非常犀利，宣称的三个体验升级方向，都精准地设定了我们熟悉的心理锚点和对比标的：

安心丝滑，主打“妈妈也安心开”：这其实是小鹏汽车对现有智驾体验的一次重要自我迭代。熟悉小鹏当前辅助驾驶系统的用户应该知道，系统中偶尔出现的重刹、急刹、顿挫等问题，往往会让人缺乏“安心感”。客观来说，这也是此前不少二三梯队智驾方案的通病。在特斯拉 FSD 准备入华，特别是地平线 HSD 推出之后，各家基本都在“丝滑度”上加速追平。

全场景能力，P 挡激活无导航智驾：官方宣称可实现停车场与城区的自主漫游。不过，结合直播中小鹏展示的过路口等场景来看，似乎与此前的演示话术差异不大，“能过”的场景以前也说能过，现阶段展现出的说服力并不算特别高，还有待实车落地检验。

高效，堪比老司机：核心在于提升通勤效率。小鹏通过具体的对比数据支撑，以及几个实际城区路况的跑测结果，直观地证明了系统的通行效率有了显著提高。

小鹏的产品力迭代方向符合当前智驾内卷的方向，一个维度是性能，一个维度是场景。其实这些产品的功能场景以及性能维度内容在我们书籍中都有详细介绍，可以点击《《自动驾驶产品经理》适合哪些人看？有什么价值？》进行了解和购买。

最后，不得不说，小鹏的产品故事能力可以的，有心理锚点，有对感性的量化。

二、技术升级：物理 AI 的基座重构

关于技术方面还是有亮点，小鹏汽车通用智能中心负责人刘鲜明先生带来的技术讲解非常实在，透视出了当前 Physical AI（物理 AI）算法模型架构的难点。

首先，自动驾驶的本质是“物理 AI”

对于熟悉 AI 的朋友来说，模型、算力、数据是数字世界的三大件。但对于 Physical AI 而言，多了一个与物理世界交互的“本体”。

对于汽车产业，这个本体就是车（对于人形机器人就是机器人）。模型产生的数字结果，必须通过本体来影响并与人类的物理世界进行真实交互。

但是，物理世界和数字世界有巨大的差异，处理难度呈指数级增长：

输入信号复杂：物理世界的视频和音频是连续的非结构化数据，信息量极大，无法像文字那样轻易分词拆解。

输出信号连续：本体汽车控制电机、方向盘、扭矩需要的是极其平顺的连续信号，而非离散信号。

反馈机制缺失：物理世界给出的交互反馈是未知的，很难定义一个绝对“正确”的世界模型来提供反馈。

这决定了目前任何现成的 LLM 和 VLM 大模型都不可能直接套用，必须重新匹配物理世界的反馈机制并通过电机转换表达。

所以，小鹏将第二代 VLA 直接打造成了一套原生多模态的物理世界基座模型：

原生多模态 Tokenizer：设计了原生的信号处理单元，以极高效率进行早期融合，避免单一模态的偏差。

视觉推理思维链 (COT)：将思维链推理效率提升 32 倍以确保车端实时运行。在直行道跟慢车时，模型能通过 COT 自动生成解决方案（变道超车、寻找空间或跟车），生成抽象“鸟瞰图”并对每种行为打分，在复杂路况中找到最优解。

原生舱驾联动：模型不仅输出动作，还能生成视频和声音，它是 VLA 的底座，也是世界模型、仿真、强化学习的基础框架，更是让车变成有机智能体的核心。

其次. 追求极致的“有效算力”

有了模型，还需要车端强大的算力支撑。小鹏在车端实现了算力效率的彻底重构：

软硬协同优化与 12 倍提升：自研图灵芯片，定制底层硬件架构和 AI 编译器，并重构“图灵模型结构”。三者联合优化，让车端运行效率整整提升了 12 倍，实现与摄像头帧率同步的实时性。

有效算力跨越：硬件算力利用率从通用方案的 22.5% 拉升至 82.5%（提升约 4 倍）。经过重构，过去 1 颗图灵芯片“名义算力”当 3 颗 Orin-X，现在 1 颗的“有效算力”已接近 10 颗 Orin-X。

云端 Infra 迭代：过去大半年更新 468 版十亿参数级大模型（日均近 4 版）。单颗 GPU 训练效率从每秒 0.1 提升至 1.11 个样本（提升超 1000%），单任务训练效率提升 43 倍，GPU 计算单元利用率从去年的 40% 跃升至 90%。

再次. 物理世界的极致数据吞吐

云端训练：单次训练高质量数据达 50 PB（一般语言大模型的 20 倍）。单次训练一个模型的 Token 数量高达 4 万亿（4T），基本等同于训练一个 ChatGPT 规模模型的数据量。

车端吞吐：7 颗摄像头带来的高密度数据达每秒 53 亿字节（折合大家熟悉的内存单位大概是 5GB），是常规传感器的 20-50 倍。

恐怖的消耗对比：今年春节一周，全国人民使用通用 AI 日均消耗 0.73 万亿 Tokens。如果小鹏现有的 Ultra 车型全部跑 VLA 模型，每天在路上消耗的 Token 量将高达 58.8 万亿，是全国数字世界通用 AI 日消耗量的 80 倍！处理物理世界数据必须有强悍的算力底座。

最后. 基于世界模型的仿真与强化学习

规模与生成式交互：过去一年仿真 Case 从 3 万增至 50 万，一天测试当量相当于人类跑 3000 万公里。摒弃传统环境重建，利用世界模型生成极端交互场景（如鬼探头、瑞典雪后湿滑路面），并自然生成不同反馈。

自我博弈 (Self-Play)：解决物理世界缺乏“真实 Reward”的关键。VLA 模型输出动作，世界模型生成新场景，两者实时动态博弈自我进化。这与特斯拉 FSD 的自我博弈方法类似，不过特斯拉把人也接入了交互动态的仿真中。

三、 2026 年核心目标与工程落地

通过底层的全面重构，刘鲜明领回的 KPI 极具挑战性：

安全性跃升：安全接管里程提升 50 倍；常规平均接管数（因不舒适、不安心等非安全因子导致）提升 25 倍。遗憾的是，小鹏并未公布这两个参数当前的基线水平。

200 亿参数上车：将车端模型的参数量推向 200 亿 (20B) 规模，这在行业内将是首次（对比此前我们文章《理想汽车 VLA 的三个为什么？》中分享到的理想车端的 VLA 是 4B，即 40 亿参数）。不过小鹏这 200 亿应该是 VLA+VLM 的总和，非控车模型参数确实可以做得更大，因为实时性要求没那么高。

最终目标是对标特斯拉 FSD：小鹏力求在中国带来超越 FSD 在硅谷的表现。但这同样存在风险：特斯拉已经将 Grok 大模型通过云端方式整合上车，形成了完美融合座舱的 Agent，小鹏似乎并未宣布明确的跟进策略。

此外，在具体工程落地层面：

舱驾一体落地：VLA 结合 VLM 的舱驾联动功能将在今年内上线。

Max 蒸馏版：针对互联网上老款 Pro、Max 用户对智驾软件更新慢的强烈意见，官方确认基于 Orin 的 Max 智驾蒸馏版将在今年推出。

商业化闭环：年底前正式开启 Robotaxi 无人化运营。

四、总结与深度思考

正如发布会结尾刘鲜明略带感性的总结：“第二代 VLA 的确让我们看到了完全不一样的东西。我们坚信，它是小鹏拉开与其他自动驾驶企业差距的起点，可能是目前中国最领先的智驾系统。”

小鹏 VLA 2.0 展现了从底层彻底重构物理 AI 的巨大决心和工程能力，有点破釜成舟，不破楼兰终不还的悲壮。但面对残酷的行业竞争，我们也不得不提出几个开放性的思考题：

大模型全面推进的智驾：大家都在通过一段式模型的优化，不断优化安心丝滑和效率，况且本次推出的漫游功能，华为、理想、地平线都也有了，小鹏凭什么就觉得自己做的最好？

“蒸馏版”能否安抚老车主：面对硬件算力鸿沟，基于 Orin 平台的 Max 蒸馏版，最终交付的体验能否真正填平老用户的心理落差，还是仅仅是一次“降维妥协”？

特斯拉的“降维打击”：面对特斯拉 FSD 叠加云端 Grok 赋能的 Agent 智能体生态，还单纯在端到端驾驶模型上的死磕，能否帮小鹏回到国内智驾的第一梯队？

自动驾驶的下半场，究竟是 Scaling Law 的暴力美学，还是物理 AI 的精细重构？抑或是座舱大模型集合赋能？时间会给出答案。

小鹏第二代VLA产品与技术全景解析

一、 产品提升：精准切中用户心理锚点

二、 技术升级：物理 AI 的基座重构