从AlphaGo一战成名的初代TPU,到如今支撑Gemini大模型全链路业务的Ironwood,谷歌用十余年的时间,把AI专用芯片的架构设计做到了极致。
不同于通用GPU的全能设计,Ironwood从单芯片底层,到托盘级系统,再到万卡级超算集群,全链路都围绕AI计算的核心痛点做了深度优化。
今天,我们就从芯片架构、系统设计到集群部署,全维度拆解这款顶级AI芯片的硬核架构,看懂谷歌AI算力的底层护城河。
1. TPU芯片架构:专为AI生的孩子,就是不一样
Ironwood是谷歌首款双Die设计的TPU,说人话就是一颗芯片里塞了俩计算核心,所有设计全给AI让路,通用计算那点事直接扔了,一点冗余都不给你留。
这颗芯片单芯片FP8峰值算力直接干到4614 TFLOPS,比上一代TPU v5p翻了10倍还多,这个飞跃直接把行业天花板拉高了一头。
1. TensorCore:AI算力的核心引擎
作为TPU的计算核心,TensorCore是专为深度学习最核心的矩阵张量运算设计的专用加速单元,也是Ironwood超高算力的源头。
每个TensorCore都集成了MXU矩阵乘单元、XLU向量处理单元、VPU标量处理单元,形成了“矩阵-向量-标量”的全层级计算能力,完美匹配大模型训练与推理中的全场景计算需求。不同于通用GPU需要兼顾图形渲染、科学计算等多场景,TensorCore从电路底层就针对FP8/FP16等AI常用精度做了极致优化,实现了算力密度和计算效率的双重突破。
2. 第四代SparseCore:解决大模型的“隐形瓶颈”
这是Ironwood最具差异化的架构创新之一,也是谷歌TPU长期领先的独家优势。
大模型训练与推荐系统中,嵌入层(Embedding)处理、多机集合通信一直是拖慢计算效率的隐形瓶颈,往往会导致主计算核心长时间闲置。而Ironwood搭载的第四代SparseCore,较上一代实现了2.4倍的FLOPS提升,专门承担这两类任务的硬件加速与卸载:
可独立完成大模型嵌入层的稀疏计算处理,适配超大规模推荐模型;
可卸载预训练、强化学习微调中的集合通信任务,与主TensorCore的计算完全并行执行,彻底消除通信等待带来的算力浪费;
依托超算舱的全局共享内存,实现了百万级的跨节点访存并行能力,完美匹配超大规模分布式训练的需求。
3. 存储子系统:HBM3E+共享寻址,打破“显存墙”
大模型对显存的需求,早已从“容量够用”升级为“容量+带宽双极致”,Ironwood的存储子系统从架构底层就做了针对性优化:
单芯片集成8组HBM3E高带宽堆叠显存,实现了7.3TB/s的峰值显存带宽与192GiB的单芯片显存容量,不仅能完整承载更大规模的模型切片,更能为张量计算核心提供源源不断的数据供给,避免“算力闲置、数据跟不上”的显存墙问题。
更关键的是,这套存储系统原生支持全局直接寻址,为后续超算舱的共享内存架构打下了底层基础。
4. 高速互联IO:从单芯片到万卡集群的底层支撑
AI超算的核心瓶颈,从来不止是单芯片算力,更是芯片间的扩展能力。Ironwood在IO架构上做了极致的前瞻性设计:
单芯片配备1.2TBps的超高带宽IO能力,集成6组112G SerDes高速串行接口,支持无胶合、无损的横向扩展,单集群可直接扩展至9216颗芯片,无需额外的桥接芯片;
标配PCIe Gen5 x16全带宽主机接口,实现与主机CPU的无瓶颈数据交互,适配标准服务器的部署需求。
2. 系统级架构:Ironwood Tray,万卡集群的最小积木
单芯片牛不叫牛,能攒成大规模集群还能用,那才是真本事。
Ironwood Tray就是谷歌超算的最小可部署单元,说白了就是把4颗芯片攒成一块板卡,直接就能往机房里插。
密度真的卷:单板卡近20 PFLOPS算力
一块标准托盘就塞4颗Ironwood,算下来单托盘FP8峰值算力就干到近20 PFLOPS——这个数啥概念?很多中小型商用超算整机总算力都没这个数,你说狠不狠。
4颗芯片对称布局,供电散热互联全给你做好了,拿来就能用,不用你瞎折腾。
液冷玩出花:8年量产经验堆出来的解决方案
4颗高算力芯片堆一块,7×24小时满负载跑,散热就是天大的问题。谷歌直接上了第三代并联液冷,全行业成熟度数一数二,现在已经有超1GW的部署规模了。
说人话,并联水路就是每颗芯片都同时走冷水,不会像串联那样前面冷后面热,不会出现后面芯片过热降频,大家温度都均匀。还能根据芯片负载动态调水流速,低负载省电,高负载满速散热,比老方案效率高太多。
通信不堵车:每个芯片都独享带宽
每颗TPU都单独配一条PCIe Gen5 x16通道,完全不共享带宽,主机和芯片传数据再也不会堵。
除此之外,板卡带18个高速接口。
这个其实有点意思。
问大家一个问题。
每个TPU有6个112G的接口,为什么板卡会有18个接口。
这是因为,每个TPU有4个接口连接上下左右。可以看到上面一排有16个口。
而前后,是用于板上的4个TPU互联的。
而最前面和最后的TPU还有前后的两个口。
所以就是4X4+2的接口。
OCS的设计为板卡之间、机架之间互联完全无瓶颈,给万卡集群攒堆打好了基础。
3. 集群级架构:9216芯SuperPod,共享内存超算真的来了
单芯片单板卡攒好了,最终怎么拼成万卡超算?
Ironwood的集群设计才是真革命,直接把传统分布式超算的老问题给解决了。
OCS光互联:万卡扩展不卡脖子
一个标准SuperPod超算舱直接塞9216颗Ironwood芯片,核心互联用的是谷歌自研的OCS光电路交换机,不用传统的电互联。
好处太明显了:
第一,你可以随便切算力切片,想要多大规模就拼多大,动态分配,资源不浪费;
第二,单个节点坏了根本不影响整个集群,不会说一个小故障全任务崩盘,可用性好太多。
1.77PB全局共享内存:直接破了内存墙
依托光互联和单芯片的全局寻址,Ironwood直接把9216颗芯片的所有HBM显存给你统一编址,做出来1.77PB的直接可寻址共享内存——这是共享内存多处理器的新世界纪录。
传统分布式训练是什么样?
每个芯片自己用自己的显存,数据传来传去还要花大量时间通信,开销大到离谱。
现在全集群内存直接共享,低开销高带宽,万亿参数大模型直接放进去跑,从根上解决了多机并行的通信瓶颈,这个架构改进真的是革命性的。
算力规模有多狠?单舱42.5 Exaflops,还能无限扩
单超算舱FP8峰值算力就干到了42.5 Exaflops,比初代TPU翻了4000倍,十几年涨了四千倍,这个速度真的吓人。
而且多个超算舱还能横向扩,轻轻松松就能做到Zettaflops级总算力,下一代更大的大模型,谷歌早就把算力坑挖好了。
最关键的是全链路RAS可靠性设计,从芯片到集群都做了故障隔离,坏一颗换一颗就行,不用全集群停摆,万卡规模能稳定跑,这才是真本事,不是堆芯片就能堆出来的。
很多人看AI芯片就只看单芯片算力多少,那都是被厂家带偏了。
Ironwood强,强在从芯片到数据中心全链路协同优化,不是堆参数。
最实在的能效比,Ironwood做到了29.3 TFLOPS每瓦,比上一代翻了一倍,现在数据中心电力卡得这么死,同样的电费,谷歌能多跑30%的AI算力,这个成本优势多大不用我多说吧?
5. 最后说两句:未来算力竞争,拼的是全栈能力
看完这整套架构,你应该明白谷歌为什么能在AI领域稳坐第一梯队这么多年了。
从单芯片的双Die专用核心,到托盘级的液冷互联,再到万卡级的光互联共享内存,Ironwood每一处设计,都精准戳在了大模型算力的痛点上,没有一个地方是多余的。
未来的AI算力竞争,早就不是单芯片拼数字的游戏了,是从芯片底层到数据中心顶层,全链路的架构创新比拼。
谷歌不是堆参数堆出来的领先,是从底层架构全链路掐死了大模型的算力痛点,这才是人家真正的AI护城河。
关注歪睿老哥,硬核科技不瞎吹,咱们下期接着唠。
336
