编者按:「新变量」是汽车之心推出的分享智能汽车一线从业者洞察的专栏。以亲历者的视角,带你预见智能汽车发展的关键变量。特约作者|周彦武编辑|汽车之心过去几年,中国智能汽车行业有一个固化的认知:先进制程来自台积电,高阶架构属于英伟达。而真正有能力自研芯片的,则只有蔚来、理想和小鹏等少数新势力。
5 月 28 日,随着比亚迪发布中国首款 4nm 智驾芯片璇玑 A3,这个认知开始被打破。对这颗芯片来说,真正值得关注的,不是 4nm 制程本身,而是另一件事:越来越多车企,正在争夺下一代 AI 芯片的定义权。
01比亚迪真能自己造 4nm 芯片吗?
目前,全球能够量产 5 纳米以下芯片的晶圆厂,仅有三家,分别是:三星、台积电和英特尔。
中国目前最先进的是中芯国际的 7 纳米,靠 DUV 多重曝光能勉强实现,但工艺复杂、良率低、成本高。众所周知,ASML 的 EUV 光刻机对华出口被荷兰政府叫停。
没有 EUV,5 纳米以下制程理论上走不通。比亚迪拥有 5 座晶圆厂:
- 成都晶圆厂:位于成都市双流区(原紫光成都存储器基地改建),是国内规模最大、专注车规级产品的 12 英寸晶圆厂。
- 济南晶圆厂:基于比亚迪收购济南富能半导体后的扩产项目,主要布局 8 英寸晶圆产能,是比亚迪实现车规级芯片垂直整合的关键基地。
- 宁波晶圆厂:依托宁波保税区升级改造的重要半导体项目,具备年产 24 万片的产能。
- 深圳及其他基地:作为研发大本营及早期晶圆与封测基地,涵盖从 Wafer 划片、晶圆测试到成品测试的完整配套。
其中,济南、宁波、深圳几座厂主要生产功率半导体元件。真正可能具备逻辑芯片能力的,只有成都工厂。
如果比亚迪这款高算力芯片是自己生产的,只有可能是成都工厂生产的。成都工厂是比亚迪在 2023 年 1 月以 15.9 亿人民币收购得来,原本是计划生产 3D NAND 存储器的,与逻辑类芯片差异较大。
3D NAND 是一种通过在垂直方向堆叠存储单元(Cell)来大幅提升存储容量的闪存技术,目前主流工艺的物理线宽(纳米)通常在 30nm 至 50nm 之间。相比于平面(2D)闪存,3D NAND 不再一味追求缩小平面尺寸,而是通过增加「层数」来获取更大的单颗芯片容量。
也就是说,它的工艺是 30 纳米到 50 纳米,如果转型做 4 纳米,工厂的设备需要全部更换,代价很大。更符合现有产业条件的推断是:璇玑 A3 大概率由台积电代工,工艺节点很可能是 N4C。
2024 年初,台积电推出了 N4C 工艺,虽然号称是 4 纳米工艺,但其实是 5 纳米家族的衍生版,专为高性价比主流市场打造。通过精简掩膜层数和优化基础 IP,N4C 相比于 N4P 可将裸晶(Die)制造成本降低达 8.5%,同时保持设计兼容性并提升良率。
对于首次进入这种先进制程的车企来说,这是一条相对务实的路。当然,公开信息目前尚无法确认代工方身份,以上为基于产业逻辑的推测,并非结论。
02制程之外,更重要的是什么?
对数字类芯片来说,制程的优势是压倒性的。晶体管密度,决定同样面积内能塞进多少晶体管。晶体管越多,算力就越强,存储容量就越大。同样的面积意味着同样的成本,谁的工艺更先进,谁就可以以同样的成本取得更高的性能。
同时,制程越先进,意味着漏电越低,功耗自然更低。但制程只是门槛,真正决定胜负的,是架构。
先看一张参数对比:
这张表格有一个问题:各家算力的统计口径并不统一。稀疏算力基本是稠密算力的两倍。英伟达和高通给出的是真实 MAC 阵列算力,含金量最高。其余厂商大多是等效算力,直接横向比较意义有限。
如上图,CPU 是调度中心,AI 或 NPU 只是工具,CPU 算力重要程度不比 AI 算力低,高通遥遥领先,马赫 M100 则堆了 24 核心 A78AE,又是 5 纳米,运行频率可以高于 7 纳米,仅次于高通,但成本较高。
在这里,蔚来值得单独一提:2022 年底蔚来发布的神玑 NX9031 芯片,存储带宽 546GB/s,依然是国产最高。比亚迪则用 16 核心取得 420K DMIPS 的成绩,比地平线的 18 核心还高。从参数推断,比亚迪大概率用了比较新的 ARM Cortex-X720 架构,运行频率 2.6GHz。
03世界模型时代,通用 GPU 不够用了
过去一颗英伟达 Orin 可以用五年。现在半年一变:世界模型、VLA、DiT、端侧 Agent 轮番登场。通用 GPU 开始不够用了。为什么?因为汽车场景的数据,天然是稀疏的。
从比亚迪的功耗和算法利用率两个关键描述看,一种更符合产业逻辑的推测是:比亚迪在 NPU 架构上押注了小核心路线。汽车行业与其他领域 AI 最大不同,是汽车行业的数据非常稀疏(即包含大量的 0),因为有大面积几乎没有纹理特征的天空、路面阴影、远处背景等等,大量信息其实是无效数据。
像素值接近 0,乘以权重还是 0,根本不需要计算。传统大核心 GPU/NPU 不管这些,照算不误,这相当于在做无用功。但汽车场景偏偏是稀疏数据的重灾区。这是新兴车企集体下场造芯片的底层原因之一——买来的芯片,天生就在浪费算力。
早期的解决方案是权重剪枝处理:提前对零值位置编码,让硬件不必重复识别。这在权重固定的时代还能用。但 Transformer 时代不同。由于整流线性单元 (ReLU) 激活函数,调频(feature map)中包含大量零值。
问题在于,这些零值的位置不是固定的,它随输入数据实时变化。这需要专用硬件,来实时感知稀疏结构,动态跳过无效计算。这比权重稀疏复杂得多。更麻烦的是,当芯片使用非 ReLU 激活函数(如 sigmoid、leaky ReLU、tanh)时,NPU 无法获得有效的性能增益。
其次,是刚刚兴起的世界模型背后的 DiT 架构。DiT 和当前主流 Transformer 架构需求差异极大:
- 串行结构明显,需要多次迭代;对标量和向量算力要求高;存储碎片化严重,对存储带宽压力极大。
更关键的是,在 Batch=1 的真实驾驶场景下,扩散模型跑在 GPU 上的利用率不到 15%。这个效率非常低,需要近似 CPU 的小核心来对应。
基于公开参数推测,比亚迪璇玑 A3 的 NPU 可能采用了这样的设计思路:每个核心包含张量引擎、矢量引擎和紧耦合片上存储,配有专门的稀疏控制器,在数据发送端就过滤掉零值,避免无效搬运。
整体倾向于多核心、小阵列的分布式结构,而非一个超大 MAC 阵列。其 32*8 的 MAC 阵列,是比较典型的小核心架构。
小核心实际就是多核 CPU,特斯拉的 Dojo 最为明显,实际就是 384 核心的 CPU,每个 CPU 是 8 路解码 2 路线程 4 路标量和集成寄存器的超标量 CPU。英伟达的 CUDA Core 也可以勉强算小核心。小核心的优势很明显:
- 高度灵活,对任何 shape 的数据都能轻松处理;Batch=1 也保持很高的利用率(GPU/NPU 要 1024 batch 才能有 90% 利用率);天然适配 Decode、MoE expert 路由、可变长 KV cache 也就是 Agentic AI 最需要的长上下文。原生支持非结构化细粒度稀疏。官方报告显示: 75% 稀疏下相对稠密基线可达约 2.5 倍实际加速。
但小核心也是有代价的。每个小核都要付出独立取指、译码、寄存器堆、控制逻辑开销。在同样工艺、同样算力下,纯小核设计比 Systolic array(脉动阵列)多付出 2 至 5 倍的芯片面积,意味着成本也会提高至 2 至 5 倍。另外,软件生态和编译器工具链也远不如 GPU 成熟。
以上,是一些大厂不愿意做小核心的根本原因:成本太高,推广太难。
车企愿意押注,是因为他们只需要让自己的算法跑得好。这是两种完全不同的生意逻辑。
过去,车企做芯片的逻辑是降本和供应链安全。现在这个逻辑完全变了,算法迭代太快,世界模型、VLA、端侧 Agent 轮番登场,芯片定义权决定了谁能先跑通下一代架构。
当智驾开始像大模型一样高速迭代,芯片已经不再是「零部件」,而是算法公司的基础设施。车企自研芯片,就是在争夺下一代计算范式的话语权,这才是比亚迪璇玑 A3 真正的产业意义。不是中国车企造出了 4 纳米芯片,而是:主流派也下场了。
越来越多的玩家加入自研芯片的行列,大模型时代,技术路线升级变化很快,车企为了快速迭代,不得不自研芯片。但效果如何,现在下结论太早。但有一点可以确认:这场战争,已经不再只属于少数玩家。
594
