比亚迪璇玑A3 拆解：车企开始争夺AI芯片定义权

编者按：「新变量」是汽车之心推出的分享智能汽车一线从业者洞察的专栏。以亲历者的视角，带你预见智能汽车发展的关键变量。特约作者｜周彦武编辑｜汽车之心过去几年，中国智能汽车行业有一个固化的认知：先进制程来自台积电，高阶架构属于英伟达。而真正有能力自研芯片的，则只有蔚来、理想和小鹏等少数新势力。

5 月 28 日，随着比亚迪发布中国首款 4nm 智驾芯片璇玑 A3，这个认知开始被打破。对这颗芯片来说，真正值得关注的，不是 4nm 制程本身，而是另一件事：越来越多车企，正在争夺下一代 AI 芯片的定义权。

01比亚迪真能自己造 4nm 芯片吗？

目前，全球能够量产 5 纳米以下芯片的晶圆厂，仅有三家，分别是：三星、台积电和英特尔。

中国目前最先进的是中芯国际的 7 纳米，靠 DUV 多重曝光能勉强实现，但工艺复杂、良率低、成本高。众所周知，ASML 的 EUV 光刻机对华出口被荷兰政府叫停。

没有 EUV，5 纳米以下制程理论上走不通。比亚迪拥有 5 座晶圆厂：

存储器

车规级芯片

宁波晶圆厂：依托宁波保税区升级改造的重要半导体项目，具备年产 24 万片的产能。

深圳及其他基地：作为研发大本营及早期晶圆与封测基地，涵盖从 Wafer 划片、晶圆测试到成品测试的完整配套。

其中，济南、宁波、深圳几座厂主要生产功率半导体元件。真正可能具备逻辑芯片能力的，只有成都工厂。

如果比亚迪这款高算力芯片是自己生产的，只有可能是成都工厂生产的。成都工厂是比亚迪在 2023 年 1 月以 15.9 亿人民币收购得来，原本是计划生产 3D NAND 存储器的，与逻辑类芯片差异较大。

3D NAND 是一种通过在垂直方向堆叠存储单元（Cell）来大幅提升存储容量的闪存技术，目前主流工艺的物理线宽（纳米）通常在 30nm 至 50nm 之间。相比于平面（2D）闪存，3D NAND 不再一味追求缩小平面尺寸，而是通过增加「层数」来获取更大的单颗芯片容量。

也就是说，它的工艺是 30 纳米到 50 纳米，如果转型做 4 纳米，工厂的设备需要全部更换，代价很大。更符合现有产业条件的推断是：璇玑 A3 大概率由台积电代工，工艺节点很可能是 N4C。

2024 年初，台积电推出了 N4C 工艺，虽然号称是 4 纳米工艺，但其实是 5 纳米家族的衍生版，专为高性价比主流市场打造。通过精简掩膜层数和优化基础 IP，N4C 相比于 N4P 可将裸晶（Die）制造成本降低达 8.5%，同时保持设计兼容性并提升良率。

对于首次进入这种先进制程的车企来说，这是一条相对务实的路。当然，公开信息目前尚无法确认代工方身份，以上为基于产业逻辑的推测，并非结论。

02制程之外，更重要的是什么？

对数字类芯片来说，制程的优势是压倒性的。晶体管密度，决定同样面积内能塞进多少晶体管。晶体管越多，算力就越强，存储容量就越大。同样的面积意味着同样的成本，谁的工艺更先进，谁就可以以同样的成本取得更高的性能。

同时，制程越先进，意味着漏电越低，功耗自然更低。但制程只是门槛，真正决定胜负的，是架构。

先看一张参数对比：

这张表格有一个问题：各家算力的统计口径并不统一。稀疏算力基本是稠密算力的两倍。英伟达和高通给出的是真实 MAC 阵列算力，含金量最高。其余厂商大多是等效算力，直接横向比较意义有限。

如上图，CPU 是调度中心，AI 或 NPU 只是工具，CPU 算力重要程度不比 AI 算力低，高通遥遥领先，马赫 M100 则堆了 24 核心 A78AE，又是 5 纳米，运行频率可以高于 7 纳米，仅次于高通，但成本较高。

在这里，蔚来值得单独一提：2022 年底蔚来发布的神玑 NX9031 芯片，存储带宽 546GB/s，依然是国产最高。比亚迪则用 16 核心取得 420K DMIPS 的成绩，比地平线的 18 核心还高。从参数推断，比亚迪大概率用了比较新的 ARM Cortex-X720 架构，运行频率 2.6GHz。

03世界模型时代，通用 GPU 不够用了

过去一颗英伟达 Orin 可以用五年。现在半年一变：世界模型、VLA、DiT、端侧 Agent 轮番登场。通用 GPU 开始不够用了。为什么？因为汽车场景的数据，天然是稀疏的。

从比亚迪的功耗和算法利用率两个关键描述看，一种更符合产业逻辑的推测是：比亚迪在 NPU 架构上押注了小核心路线。汽车行业与其他领域 AI 最大不同，是汽车行业的数据非常稀疏（即包含大量的 0），因为有大面积几乎没有纹理特征的天空、路面阴影、远处背景等等，大量信息其实是无效数据。

像素值接近 0，乘以权重还是 0，根本不需要计算。传统大核心 GPU/NPU 不管这些，照算不误，这相当于在做无用功。但汽车场景偏偏是稀疏数据的重灾区。这是新兴车企集体下场造芯片的底层原因之一——买来的芯片，天生就在浪费算力。

早期的解决方案是权重剪枝处理：提前对零值位置编码，让硬件不必重复识别。这在权重固定的时代还能用。但 Transformer 时代不同。由于整流线性单元 (ReLU) 激活函数，调频（feature map）中包含大量零值。

问题在于，这些零值的位置不是固定的，它随输入数据实时变化。这需要专用硬件，来实时感知稀疏结构，动态跳过无效计算。这比权重稀疏复杂得多。更麻烦的是，当芯片使用非 ReLU 激活函数（如 sigmoid、leaky ReLU、tanh）时，NPU 无法获得有效的性能增益。

其次，是刚刚兴起的世界模型背后的 DiT 架构。DiT 和当前主流 Transformer 架构需求差异极大：

串行结构明显，需要多次迭代；对标量和向量算力要求高；存储碎片化严重，对存储带宽压力极大。

更关键的是，在 Batch=1 的真实驾驶场景下，扩散模型跑在 GPU 上的利用率不到 15%。这个效率非常低，需要近似 CPU 的小核心来对应。

基于公开参数推测，比亚迪璇玑 A3 的 NPU 可能采用了这样的设计思路：每个核心包含张量引擎、矢量引擎和紧耦合片上存储，配有专门的稀疏控制器，在数据发送端就过滤掉零值，避免无效搬运。

整体倾向于多核心、小阵列的分布式结构，而非一个超大 MAC 阵列。其 32*8 的 MAC 阵列，是比较典型的小核心架构。

小核心实际就是多核 CPU，特斯拉的 Dojo 最为明显，实际就是 384 核心的 CPU，每个 CPU 是 8 路解码 2 路线程 4 路标量和集成寄存器的超标量 CPU。英伟达的 CUDA Core 也可以勉强算小核心。小核心的优势很明显：

高度灵活，对任何 shape 的数据都能轻松处理；Batch=1 也保持很高的利用率（GPU/NPU 要 1024 batch 才能有 90% 利用率）；天然适配 Decode、MoE expert 路由、可变长 KV cache 也就是 Agentic AI 最需要的长上下文。原生支持非结构化细粒度稀疏。官方报告显示： 75% 稀疏下相对稠密基线可达约 2.5 倍实际加速。

但小核心也是有代价的。每个小核都要付出独立取指、译码、寄存器堆、控制逻辑开销。在同样工艺、同样算力下，纯小核设计比 Systolic array（脉动阵列）多付出 2 至 5 倍的芯片面积，意味着成本也会提高至 2 至 5 倍。另外，软件生态和编译器工具链也远不如 GPU 成熟。

以上，是一些大厂不愿意做小核心的根本原因：成本太高，推广太难。

车企愿意押注，是因为他们只需要让自己的算法跑得好。这是两种完全不同的生意逻辑。

过去，车企做芯片的逻辑是降本和供应链安全。现在这个逻辑完全变了，算法迭代太快，世界模型、VLA、端侧 Agent 轮番登场，芯片定义权决定了谁能先跑通下一代架构。

当智驾开始像大模型一样高速迭代，芯片已经不再是「零部件」，而是算法公司的基础设施。车企自研芯片，就是在争夺下一代计算范式的话语权，这才是比亚迪璇玑 A3 真正的产业意义。不是中国车企造出了 4 纳米芯片，而是：主流派也下场了。

越来越多的玩家加入自研芯片的行列，大模型时代，技术路线升级变化很快，车企为了快速迭代，不得不自研芯片。但效果如何，现在下结论太早。但有一点可以确认：这场战争，已经不再只属于少数玩家。

比亚迪璇玑A3 拆解：车企开始争夺AI芯片定义权

01比亚迪真能自己造 4nm 芯片吗？

02制程之外，更重要的是什么？

03世界模型时代，通用 GPU 不够用了

相关推荐