谷歌Ironwood TPU全架构拆解：从单芯片到万卡超算，Gemini算力的底层密码

从AlphaGo一战成名的初代TPU，到如今支撑Gemini大模型全链路业务的Ironwood，谷歌用十余年的时间，把AI专用芯片的架构设计做到了极致。

不同于通用GPU的全能设计，Ironwood从单芯片底层，到托盘级系统，再到万卡级超算集群，全链路都围绕AI计算的核心痛点做了深度优化。

今天，我们就从芯片架构、系统设计到集群部署，全维度拆解这款顶级AI芯片的硬核架构，看懂谷歌AI算力的底层护城河。

1. TPU芯片架构：专为AI生的孩子，就是不一样

Ironwood是谷歌首款双Die设计的TPU，说人话就是一颗芯片里塞了俩计算核心，所有设计全给AI让路，通用计算那点事直接扔了，一点冗余都不给你留。

这颗芯片单芯片FP8峰值算力直接干到4614 TFLOPS，比上一代TPU v5p翻了10倍还多，这个飞跃直接把行业天花板拉高了一头。

1. TensorCore：AI算力的核心引擎

作为TPU的计算核心，TensorCore是专为深度学习最核心的矩阵张量运算设计的专用加速单元，也是Ironwood超高算力的源头。

每个TensorCore都集成了MXU矩阵乘单元、XLU向量处理单元、VPU标量处理单元，形成了“矩阵-向量-标量”的全层级计算能力，完美匹配大模型训练与推理中的全场景计算需求。不同于通用GPU需要兼顾图形渲染、科学计算等多场景，TensorCore从电路底层就针对FP8/FP16等AI常用精度做了极致优化，实现了算力密度和计算效率的双重突破。

2. 第四代SparseCore：解决大模型的“隐形瓶颈”

这是Ironwood最具差异化的架构创新之一，也是谷歌TPU长期领先的独家优势。

大模型训练与推荐系统中，嵌入层（Embedding）处理、多机集合通信一直是拖慢计算效率的隐形瓶颈，往往会导致主计算核心长时间闲置。而Ironwood搭载的第四代SparseCore，较上一代实现了2.4倍的FLOPS提升，专门承担这两类任务的硬件加速与卸载：

可独立完成大模型嵌入层的稀疏计算处理，适配超大规模推荐模型；

可卸载预训练、强化学习微调中的集合通信任务，与主TensorCore的计算完全并行执行，彻底消除通信等待带来的算力浪费；

依托超算舱的全局共享内存，实现了百万级的跨节点访存并行能力，完美匹配超大规模分布式训练的需求。

3. 存储子系统：HBM3E+共享寻址，打破“显存墙”

大模型对显存的需求，早已从“容量够用”升级为“容量+带宽双极致”，Ironwood的存储子系统从架构底层就做了针对性优化：

单芯片集成8组HBM3E高带宽堆叠显存，实现了7.3TB/s的峰值显存带宽与192GiB的单芯片显存容量，不仅能完整承载更大规模的模型切片，更能为张量计算核心提供源源不断的数据供给，避免“算力闲置、数据跟不上”的显存墙问题。

更关键的是，这套存储系统原生支持全局直接寻址，为后续超算舱的共享内存架构打下了底层基础。

4. 高速互联IO：从单芯片到万卡集群的底层支撑

AI超算的核心瓶颈，从来不止是单芯片算力，更是芯片间的扩展能力。Ironwood在IO架构上做了极致的前瞻性设计：

单芯片配备1.2TBps的超高带宽IO能力，集成6组112G SerDes高速串行接口，支持无胶合、无损的横向扩展，单集群可直接扩展至9216颗芯片，无需额外的桥接芯片；

标配PCIe Gen5 x16全带宽主机接口，实现与主机CPU的无瓶颈数据交互，适配标准服务器的部署需求。

2. 系统级架构：Ironwood Tray，万卡集群的最小积木

单芯片牛不叫牛，能攒成大规模集群还能用，那才是真本事。

Ironwood Tray就是谷歌超算的最小可部署单元，说白了就是把4颗芯片攒成一块板卡，直接就能往机房里插。

密度真的卷：单板卡近20 PFLOPS算力

一块标准托盘就塞4颗Ironwood，算下来单托盘FP8峰值算力就干到近20 PFLOPS——这个数啥概念？很多中小型商用超算整机总算力都没这个数，你说狠不狠。

4颗芯片对称布局，供电散热互联全给你做好了，拿来就能用，不用你瞎折腾。

液冷玩出花：8年量产经验堆出来的解决方案

4颗高算力芯片堆一块，7×24小时满负载跑，散热就是天大的问题。谷歌直接上了第三代并联液冷，全行业成熟度数一数二，现在已经有超1GW的部署规模了。

说人话，并联水路就是每颗芯片都同时走冷水，不会像串联那样前面冷后面热，不会出现后面芯片过热降频，大家温度都均匀。还能根据芯片负载动态调水流速，低负载省电，高负载满速散热，比老方案效率高太多。

通信不堵车：每个芯片都独享带宽

每颗TPU都单独配一条PCIe Gen5 x16通道，完全不共享带宽，主机和芯片传数据再也不会堵。

除此之外，板卡带18个高速接口。

这个其实有点意思。

问大家一个问题。

每个TPU有6个112G的接口，为什么板卡会有18个接口。

这是因为，每个TPU有4个接口连接上下左右。可以看到上面一排有16个口。

而前后，是用于板上的4个TPU互联的。

而最前面和最后的TPU还有前后的两个口。

所以就是4X4+2的接口。

OCS的设计为板卡之间、机架之间互联完全无瓶颈，给万卡集群攒堆打好了基础。

3. 集群级架构：9216芯SuperPod，共享内存超算真的来了

单芯片单板卡攒好了，最终怎么拼成万卡超算？

Ironwood的集群设计才是真革命，直接把传统分布式超算的老问题给解决了。

OCS光互联：万卡扩展不卡脖子

一个标准SuperPod超算舱直接塞9216颗Ironwood芯片，核心互联用的是谷歌自研的OCS光电路交换机，不用传统的电互联。

好处太明显了：

第一，你可以随便切算力切片，想要多大规模就拼多大，动态分配，资源不浪费；

第二，单个节点坏了根本不影响整个集群，不会说一个小故障全任务崩盘，可用性好太多。

1.77PB全局共享内存：直接破了内存墙

依托光互联和单芯片的全局寻址，Ironwood直接把9216颗芯片的所有HBM显存给你统一编址，做出来1.77PB的直接可寻址共享内存——这是共享内存多处理器的新世界纪录。

传统分布式训练是什么样？

每个芯片自己用自己的显存，数据传来传去还要花大量时间通信，开销大到离谱。

现在全集群内存直接共享，低开销高带宽，万亿参数大模型直接放进去跑，从根上解决了多机并行的通信瓶颈，这个架构改进真的是革命性的。

算力规模有多狠？单舱42.5 Exaflops，还能无限扩

单超算舱FP8峰值算力就干到了42.5 Exaflops，比初代TPU翻了4000倍，十几年涨了四千倍，这个速度真的吓人。

而且多个超算舱还能横向扩，轻轻松松就能做到Zettaflops级总算力，下一代更大的大模型，谷歌早就把算力坑挖好了。

最关键的是全链路RAS可靠性设计，从芯片到集群都做了故障隔离，坏一颗换一颗就行，不用全集群停摆，万卡规模能稳定跑，这才是真本事，不是堆芯片就能堆出来的。

很多人看AI芯片就只看单芯片算力多少，那都是被厂家带偏了。

Ironwood强，强在从芯片到数据中心全链路协同优化，不是堆参数。

最实在的能效比，Ironwood做到了29.3 TFLOPS每瓦，比上一代翻了一倍，现在数据中心电力卡得这么死，同样的电费，谷歌能多跑30%的AI算力，这个成本优势多大不用我多说吧？

5. 最后说两句：未来算力竞争，拼的是全栈能力

看完这整套架构，你应该明白谷歌为什么能在AI领域稳坐第一梯队这么多年了。

从单芯片的双Die专用核心，到托盘级的液冷互联，再到万卡级的光互联共享内存，Ironwood每一处设计，都精准戳在了大模型算力的痛点上，没有一个地方是多余的。

未来的AI算力竞争，早就不是单芯片拼数字的游戏了，是从芯片底层到数据中心顶层，全链路的架构创新比拼。

谷歌不是堆参数堆出来的领先，是从底层架构全链路掐死了大模型的算力痛点，这才是人家真正的AI护城河。

关注歪睿老哥，硬核科技不瞎吹，咱们下期接着唠。