华为凭借其新的 AI 加速器和机架级架构,结合 Ascend 910C 构建了 CloudMatrix 384。这一解决方案可直接与 GB200 NVL72 竞争,并且在某些指标上比英伟达的机架规模解决方案更为先进。其工程优势体现在系统层面,而非仅仅在芯片层面,在网络、光学和软件等层面均有创新。
华为 Ascend 芯片对 SemiAnalysis 来说并不陌生,但在系统比微架构更重要的世界,华为正在挑战 AI 系统性能的极限。虽然存在权衡取舍,但考虑到出口管制和低迷的国内收益率,很明显中国的出口管制存在进一步的漏洞。
虽然 Ascend 芯片可以在 SMIC 制造,但我们注意到这是一款具有HBM(来自韩国),TSMC 的初级晶圆生产,并由来自美国、荷兰和日本的数百亿台晶圆制造设备,我们深入探讨了中国国内生产的可能性,什么是激进的绕过出口管制,以及为什么美国政府需要专注于这些关键的新领域来限制中国的人工智能能力。
华为在芯片方面落后了一代,但其纵向扩展解决方案可以说比 Nvidia 和 AMD目前在市场上的产品领先一代。那么华为的 CloudMatrix 384 (CM384) 的规格是什么?
CloudMatrix 384 由 384 个 Ascend 910C 芯片组成,通过多对多拓扑连接。权衡很简单:昇腾芯片数量增加了五倍,这足以弥补每个图形处理器(GPU)性能仅为英伟达布莱克韦尔(Blackwell)芯片三分之一的不足。
完整的 CloudMatrix 系统现在可以提供 300 PFLOP 的密集 BF16 计算,几乎是 GB200 NVL72 的两倍。凭借超过 3.6 倍的总内存容量以及 2.1 倍的内存带宽优势,华为和中国如今已具备能够超越英伟达的人工智能系统能力。
而且,CM384 尤其契合中国的优势所在,即国内的网络生产以及可防止网络故障的基础设施软件,并且随着产量的进一步提升,它具备拓展至更大规模应用领域的能力。
这里的不足之处在于,它的功耗是 GB200 NVL72 的 4.1 倍,每一次浮点运算(FLOP)的功耗要高出 2.5 倍,每太字节每秒(TB/s)内存带宽的功耗高出 1.9 倍,每太字节高带宽内存(HBM)容量的功耗高出 1.2 倍。
功耗方面的这些不足虽值得关注,但在中国并非一个限制因素。
中国不存在电力限制,只存在芯片限制
西方常见的说法是人工智能受电力限制,但在中国,情况恰恰相反。过去十年里,西方一直在将主要以煤炭为基础的电力基础设施转向更环保的天然气以及可再生能源发电,并且人均能源使用效率也有所提高。而在中国,生活水平的提升以及持续的大规模投资意味着巨大的电力生产需求。
其中大部分能源依靠煤炭提供,但中国同时拥有全球最大的太阳能、水能、风能装机规模,并且如今在核能部署方面处于领先地位。美国只是维持着 20 世纪 70 年代部署的核能规模。简而言之,对美国能源电网进行升级并增加其容量,就像是失去了力量一般停滞不前,而在中国,自 2011 年,也就是大约过去十年间,新增的电网容量相当于整个美国电网的规模。
如果因相对电力充足而不存在电力限制的话,那么放弃对功率密度的考量而扩大规模,包括在设计中纳入光学元素,就是合理的做法。CM384 的设计甚至考虑到了机架之外的系统层面限制因素,而且我们认为,限制中国人工智能发展雄心的并非仅仅是相对电力供应情况。我们认为华为的解决方案有多种继续扩大规模的途径。
中国能生产多少昇腾 910C 和CloudMatrix 384?
一个常见的误解是认为华为的 910C 是在中国制造的。它完全是由中国自主设计的,但中国在很大程度上仍然依赖国外生产。无论是三星的高带宽内存(HBM)、台积电的晶圆,还是来自美国、荷兰和日本的设备,都对国外产业有着很大的依赖。
虽然中芯国际是中国最大的芯片代工厂,也确实拥有 7 纳米制程工艺,但绝大多数的昇腾 910B 和 910C 都是采用台积电的 7 纳米制程生产的。事实上,美国政府、技术洞察(TechInsights)等机构已经获取了昇腾 910B 和 910C,并且每一个产品用的都是台积电的芯片。华为曾通过另一家公司算能(Sophgo)购买了约 5 亿美元的 7 纳米晶圆,以此来规避针对台积电的制裁措施。
台积电因公然违反制裁规定而被罚款 10 亿美元,罚款金额仅为其获利的两倍。有传言称,华为仍通过另一家第三方公司从台积电获得晶圆,但我们无法证实这一传言。
华为的高带宽内存(HBM)获取情况
对国外前沿技术的依赖是这里需要考虑的部分因素,但中国对高带宽内存(HBM)的依赖程度更高。长鑫存储(CXMT)距离实现可观产量的量产仍有一年时间,所以中国还无法可靠地制造这种产品。幸运的是,三星伸出了援手,它一直是向中国供应高带宽内存(HBM)的头号供应商,借此华为得以在高带宽内存(HBM)禁令出台前总共储备了 1300 万颗高带宽内存(HBM)堆叠体,这些堆叠体可用于 160 万个昇腾 910C 芯片封装。
此外,这种被禁的高带宽内存(HBM)仍在被转出口到中国。高带宽内存(HBM)出口禁令针对的是未加工的高带宽内存(HBM)封装产品。只要芯片搭载的高带宽内存(HBM)未超出每秒浮点运算次数(FLOPS)相关规定,带有高带宽内存(HBM)的芯片仍可发货。科亚电子(CoAsia Electronics)是三星在大中华区的高带宽内存(HBM)独家经销商,他们一直在向专用集成电路(ASIC)设计服务公司法拉第(Faraday)运送 HBM2E 产品,而法拉第会让矽品精密工业股份有限公司(SPIL)将其与廉价的 16 纳米逻辑芯片一同进行 “封装”。
然后,法拉第会将这种系统级封装产品运往中国,从技术层面来说这是允许的,但中国企业随后可以通过拆焊的方式回收高带宽内存(HBM)。我们认为他们采用了一些技术,使得从封装中提取高带宽内存(HBM)变得非常容易,比如使用熔点很低的低温焊料凸块,所以当我们说 “封装” 的时候,是从最宽泛的意义上来说的。
中国国内代工厂仍可加速发展
国外生产仍有需求,但中国国内半导体供应链能力已迅速提升,且仍被低估。我们一直在不断对中芯国际(SMIC)和长江存储(CXMT)的制造能力发出警示。良率和产量仍是问题,但关键在于从长远来看中国的图形处理器(GPU)生产加速会带来怎样的情况。
中芯国际和长江存储都已收到价值数百亿美元的设备,而且尽管面临制裁,它们仍从国外获得大量独家供应的化学品及材料。
中芯国际正在上海、深圳和北京扩充先进制程产能。今年其月产能将接近 5 万片晶圆,而且由于能持续获得国外设备以及缺乏有效的制裁及执行力度,他们还在继续扩大产能。如果其良率得到提升,在华为昇腾 910C 芯片封装方面就能达到可观的数量。
虽然台积电在 2024 年和 2025 年已提供 290 万个芯片,足以用于 80 万个昇腾 910B 芯片以及 105 万个昇腾 910C 芯片的生产,但如果高带宽内存(HBM)、晶圆制造设备、设备维修服务以及光刻胶等化学材料没有得到有效管控,中芯国际的产量就有大幅增长的潜力。
CloudMatrix 384 系统架构
接下来,让我们深入了解云CloudMatrix 384 架构、纵向扩展网络、横向扩展网络、功耗预算以及成本。
一整套云矩阵系统分布在 16 个机架上,12 个计算机架中的每个机架都包含 32 个图形处理器(GPU)。在这 16 个机架的中间是 4 个纵向扩展交换机机架。为了扩大规模,华为正在跨多个机架进行纵向扩展,为此,华为不得不使用光纤。像华为这样在全互联的纵向扩展中达到数百个 GPU 的规模并非易事。
与 DGX H100 NVL256 “Ranger” 的相似之处
早在 2022 年,Nvidia 就发布了 DGX H100 NVL256“Ranger”平台,但决定不将其投入生产,因为它非常昂贵、耗电且由于所需的所有光收发器和两层网络而不可靠。CloudMatrix Pod 需要一个令人难以置信的 6,912 个 400G LPO 收发器进行联网,其中绝大多数用于纵向扩展网络。
4253