TPU

加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

张量处理器(英语:tensor processing unit,缩写:TPU)是Google为机器学习定制的专用芯片(ASIC),专为Google的深度学习框架TensorFlow而设计。

张量处理器(英语:tensor processing unit,缩写:TPU)是Google为机器学习定制的专用芯片(ASIC),专为Google的深度学习框架TensorFlow而设计。收起

查看更多

设计资料

查看更多
  • 为什么AI需要专门的硬件加速?从GPU,TPU到LPU的技术演进全景
    AI硬件加速的原因在于神经网络计算的特点:计算密度高、并行性强且控制逻辑简单。GPU因其SIMT执行模型、深多线程隐藏延迟和成熟软件生态成为当前事实标准。TPU/NPU和ASIC分别针对特定场景优化,而FPGA具有可重构特性,适合边缘推理和快速架构实验。LPU专为大模型推理服务设计,注重内存管理和延迟。未来AI硬件的发展趋势包括内存瓶颈、软硬协同设计和场景专业化。
    为什么AI需要专门的硬件加速?从GPU,TPU到LPU的技术演进全景
  • TPU、Maia、Trainium、MTIA:四大云厂商围堵英伟达,推理算力不再姓“黄”?
    AI加速器市场在未来十年将出现明显的分化,通用GPU(如英伟达)将继续主导训练市场,而定制ASIC(如云厂商自研)则将在推理市场占据主导地位。预计到2033年,AI加速器市场的总规模将达到6040亿美元,其中通用GPU的年复合增长率约为16.1%,而定制ASIC的增长率为44.6%。 四大云厂商(谷歌、微软、亚马逊、Meta)纷纷推出自家定制的AI加速器,如谷歌的TPU v7 Ironwood、微软的Maia 200、亚马逊的Trainium 3和Meta的MTIA。这些芯片在性能、功耗和成本方面各有优势,特别是定制ASIC在推理领域的成本效益更为突出。 英伟达推出了Vera Rubin架构,试图在推理市场上夺回部分市场份额,但面对定制ASIC的竞争,英伟达的CUDA生态系统仍然是其主要优势。然而,随着定制ASIC的普及,英伟达在推理市场的份额可能会大幅下降。 此外,台积电的3nm工艺成为各大厂商争夺的关键资源,导致芯片产能紧张。数据中心的基础设施也需要相应调整,以适应不同类型的AI加速器,包括散热、互联和组网等方面的变化。 对于基础设施规划师、运维团队和战略决策者而言,未来的数据中心将面临更多挑战,需要制定相应的应对策略,以确保高效运行。
    TPU、Maia、Trainium、MTIA:四大云厂商围堵英伟达,推理算力不再姓“黄”?
  • 谷歌第八代TPU深度拆解:专为Agentic AI设计,专门分两款打不同场景
    谷歌推出第八代TPU,分为TPU 8t和TPU 8i两款芯片,分别针对大规模预训练和推理部署进行优化。TPU 8t采用3D环面网络拓扑,具备SparseCore和VPU/MXU并行能力,支持FP4和Virgo网络架构,提升了算力利用率和吞吐量。TPU 8i则优化了片上SRAM和CAE,采用Boardfly拓扑,降低延迟和提高并发能力。两款芯片共同提升了AI训练和推理的性能,并且保持了软件栈的兼容性和易用性。
    1313
    04/24 13:58
    谷歌第八代TPU深度拆解:专为Agentic AI设计,专门分两款打不同场景
  • 谷歌Ironwood TPU全架构拆解:从单芯片到万卡超算,Gemini算力的底层密码
    谷歌Ironwood AI芯片架构解析:双Die设计、第四代SparseCore、HBM3E显存、OCS光互联,实现单芯片4614 TFLOPS算力,托盘级系统支持9216芯集群,单舱可达42.5 Exaflops算力,具备高效能比和高可靠性。
    1245
    04/07 10:54
    TPU
    谷歌Ironwood TPU全架构拆解:从单芯片到万卡超算,Gemini算力的底层密码
  • 算力大洗牌:GPU、TPU与“高阶TPU”的终极博弈
    AI算力竞争加剧,GPU、TPU与高阶TPU三足鼎立。GPU虽通用但效能不足,TPU专精于AI运算,高阶TPU则兼具灵活性与高效性。英伟达收购Groq,凸显可重构计算的重要性。国产企业在高阶TPU领域积极布局,有望打破GPU垄断。
    1764
    03/11 09:44
    算力大洗牌:GPU、TPU与“高阶TPU”的终极博弈