继上一篇:Nvidia登上万亿市值的历程(一)
又一次跨越式增长
90年代是3D,2010年代是加密货币,2020年代则有了另外一个关键词,AI。那时的激动,那时的期望,甚至因为谈论的人太多而有些令人生厌了,这一切都给人一种熟悉的感觉。有趣的是,这些词汇中都包含了“重复”这个共同特性,AI也是如此。
下图的深度神经网络,也是AI的核心之一。这些众多模仿人类神经网络的节点,从计算的角度完美展示了AI究竟意味着什么。
关键在于,这次的重复强度比以前更大。继3D和加密货币热之后,AI时代的到来为GPU和Nvidia带来了另一个跨越式增长时期。到了2013年,那些故事已经开始变成现实。就像20多年前,“3D”这个词都说烂了之后,我们才真正享受到了3D游戏;同样当人人都在谈论AI,AI开始代替我们画画、制作视频、甚至为我们写论文时,AI也已经变成了现实。
Nvidia的销售曲线也发生了变化。在加密货币热时的2010年代中期,Nvidia已经取得了一次量子跃迁。现在,随着AI时代的开启,Nvidia的销售曲线再次迎来了重大变化。
现在,Nvidia已控制了200多亿美金GPU市场,且跻身全球前6的半导体公司。关键是AI时代带来的新的增长动力,相较于加密货币的热潮,其增长规模可能不是一个量级的。
从GPU单品出发,在激烈竞争中胜出的Nvidia,也许才刚开始他的王朝。从游戏、3D、加密货币到AI开启的新时代,公司的年收入才刚刚超过200亿美金,但市值却已超过万亿。当然,有人可能会认为,Nvidia的市值被高估了。从PSR的角度看,目前的市值确实过高。但市值反映的不是现在的价值,而是对Nvidia在市场上的预期价值。
与HBM捆绑
这张照片是Nvidia的AI加速器H100,最近风靡市场的Nvidia的明星级产品。H代表Hopper,照片中央的半导体就是Nvidia的GPU,Hopper,而采用这个Hopper加速器的就是H100。随着AI热兴起,许多公司把H100列为首选采购项目。
无需多余赘述,其强大的性能和通用性都说明了人们为何选择H100。H100模块的单价已飙升到上万美元。OpenAI训练GPT4采用了H100的上一代产品A100,使用量多达10000颗。更重要的是,ChatGPT只是LLM中的其中一种,也不是最大的模型,会有更多的语言模型出现,但实际上LLM也只是AI的其中一个领域。
Nvidia坐拥如此巨大的AI市场,多少虚实只有上帝知道。但Nvidia的成功公式可以总结为以下两点:
1. AI时代的强力增长势头2. 制造最强解决方案的能力
在H100 GPU上覆盖的黑色部分是HBM,也是AI加速器的另一种核心半导体。它通过1024个微小的电极垂直堆叠die,实现超高带宽和超高密度,是下一代的DRAM HBM。据说H100上有40Gb到80Gb的HBM与GPU die一同封装。
从封装后处理的角度看,H100采用了TSMC的封装技术,但从AI时代的逻辑半导体市场相关的新常态角度来看,还有另外一个值得关注的新趋势。
逻辑半导体和内存进入同一个封装的变化说明AI时代的受益者不仅仅是CPU和GPU等逻辑半导体。一个H100 die有6个HBM堆叠成的H100模块,如果卖出10000个H100模块,那HBM也会卖出60000个。
当然,现在这种AI加速器很少见,H100的价格超过30000美元,而80Gb的HBM只有1000美元。但这种半导体结构在AI时代将成为新常态,它代表着一个更大的转变。
变与不变
上面总结的Nvidia的成功公式中,第一点或许可以视为恒定值。但对于第二点,对于关注逻辑半导体市场未来的人来说,无疑是必关注的变量。
首先,Nvidia在GPU市场上的挑战正在加剧。基本上,AMD正在瞄准AI加速器市场,为其MI系列做准备,年底即将推出的新产品将与Nvidia的H100竞争。而Intel也在长远规划要进入AI加速器市场。实际上,早在2021年,Intel就通过名为Ponte Vecchio的代码名公开了其AI加速器的消息,明确表示其对AI市场的决心。
客观讲,短期内这两家公司还无法与Nvidia抗衡。但这并不意味着这个市场的竞争已经确定归属,事实上,竞争才刚刚开始。与此相关的一个关键词就是“异构集成”(Heterogeneous Integration)。
我们之前提到,CPU和HBM在同一封装内的形式将成为AI半导体市场的新常态。基本上,这种变化将使逻辑和内存之间的物理距离减小,同时通过超高带宽连接带来性能提升。下一步就是CPU也会呈现出这种异构集成形式。AMD计划于今年推出的MI300正是这种解决方案。Intel也有类似的计划,最初计划于2024年左右以Falcon Shore的名字推出异构解决方案,虽然最近修改了路线图,但从长远看,Intel也肯定会走向这种异构解决方案。
关键是,与Nvidia不同,Intel和ADM都同时拥有CPU和GPU产品线,而Nvidia则是一家GPU公司。随着今年即将发布的MI300,CPU市场也将转向这种异构集成解决方案。我们说Nvidia在未来几年可能会面临更大的挑战,可能并不是过分的推测。当然,Nvidia也有利用Arm CPU的异构解决方案,名为Grace Hopper。问题是,Grace Hopper CPU是基于Arm架构的CPU,其通用性存在问题,而从算力的角度看,与Intel的Xeon和AMD的EPYC竞争仍然困难。
此外,最近Nvidia另一核心优势CUDA生态系统也开始面临各种挑战。起初,围绕着Nvidia的GPU建立的AI生态系统,是得益于Nvidia解决方案的性能和CUDA平台。CUDA是一个编程平台,使开发者和研究人员能够使用Nvidia的GPU进行AI开发。关键是,它只适用于Nvidia的显卡。
Nvidia为CUDA投入了巨大努力,早在2007年开始免费开放给大学和开发者社区,这就让研究人员和开发者们毫不犹豫地选择了Nvidia的产品,在CUDA生态系统中进行相关研究。这些积累下来的遗产为Nvidia日后在AI领域的发展带来了巨大优势。但最近,Nvidia建立的这些完美拼图正逐渐瓦解。
基本上,Google和Meta都在采取反CUDA的策略,新兴力量也在努力创建更高效和独立的平台。例如,OpenAI尽管使用了Nvidia的硬件,但用的是自己的Triton平台。一面是对CUDA生态系统的依赖逐渐减弱,另一面则是Intel和AMD持续的挑战。还有那些新兴力量开发的AI专用半导体也对Nvidia发出了不同程度的挑战。
此外,我们不应忽视内存市场。这是AI时代带来的增长动力中的另一块市场,与Nvidia稍显不确定的未来不同,无论未来的赢家是Nvidia还是其他公司,内存市场的增长是确定的。
虽然目前市场通常仅将AI市场与逻辑半导体市场相关联,但实际上,自半导体产业的起始开始,逻辑与内存两个领域一直紧密相连。现在,这两种半导体甚至在封装层面都开始结合。AI时代的另一个核心就在这里。在逐渐从PNM和PIM转向将逻辑和内存结合成一个Neuromorphic半导体的整个进化过程中,这两个词汇将逐渐合为一体。逻辑将被分解,设计将被简化,但领导这一整合过程的或许是内存半导体也不得而知。
872
下载ECAD模型