TPU_TPU资讯 - 与非网

1792TOPS算力！国产AI芯片暴降token成本，CEO揭秘4大技术诀窍

中昊芯英发布第二代全自研高性能TPU芯片“须臾”，混合精度浮点算力达896TFLOPS，性能是上一代刹那芯片的3倍，8-bit推理算力达1792TOPS，额定功耗600W，相比算力性能持平的传统算力芯片，功耗降低50%，执行同等AI任务时综合计算效能可达传统GPU架构的数倍。须臾芯片已完成基础数据测试，完整软件适配正在推进，整体性能对标海外先进的GPU与TPU，表现不落下风。目前中昊芯英已完成MiniMax、智谱等国产主流大模型适配，在现阶段多个落地场景中，单位美元token产出性价比超过海外头部GPU，单位token成本数据在国内同类芯片中具备领先优势。须臾的PPA核心是平衡性能+芯片面积，不以功耗为首要优化目标，设计目标是大幅压低单位token成本，从一代到二代直接减半，后续迭代有望降到原有的1/10。

芯东西

548

07/13 23:38

AI芯片 Token

ASIC突围：从Google TPU到中国定制芯片的野望

如果GPU是瑞士军刀，ASIC就是手术刀。Google靠一颗自研TPU，省掉了至少150亿美元的数据中心投资。2026年，TPU v7的FP8峰值算力4614 TFLOPS——压了NVIDIA B200一头。这篇文章从脉动阵列的底层原理讲起，把ASIC这条路从头拆到尾。

芯链团

2527

06/26 09:39

ASIC TPU

北美CSP大举购置NVIDIA GB / Rubin整柜式方案，2026年AI推理算力将跃升1.2倍

北美五大云端服务供应商（CSP）为扩大AI训练和推理应用部署，2026年对整柜式（rack-scale）AI Server的采购意愿明显提高，不仅有望占据全球60%以上的NVIDIA GB / VR需求量，也将同步带动五大厂商总AI训练算力年增逾56%、总AI推理算力年成长高达122%左右。 TrendForce集邦咨询预估，2026年AI Server出货将年增28%以上，且仍以高端AI训练机种

与非网编辑

523

05/20 14:10

NVIDIA CSP

北美CSP大举购置NVIDIA GB / Rubin整柜式方案，2026年AI推理算力将跃升1.2倍

为什么AI需要专门的硬件加速？从GPU，TPU到LPU的技术演进全景

AI硬件加速的原因在于神经网络计算的特点：计算密度高、并行性强且控制逻辑简单。GPU因其SIMT执行模型、深多线程隐藏延迟和成熟软件生态成为当前事实标准。TPU/NPU和ASIC分别针对特定场景优化，而FPGA具有可重构特性，适合边缘推理和快速架构实验。LPU专为大模型推理服务设计，注重内存管理和延迟。未来AI硬件的发展趋势包括内存瓶颈、软硬协同设计和场景专业化。

歪睿老哥

2022

05/04 08:55

GPU AI硬件

TPU、Maia、Trainium、MTIA：四大云厂商围堵英伟达，推理算力不再姓“黄”？

AI加速器市场在未来十年将出现明显的分化，通用GPU（如英伟达）将继续主导训练市场，而定制ASIC（如云厂商自研）则将在推理市场占据主导地位。预计到2033年，AI加速器市场的总规模将达到6040亿美元，其中通用GPU的年复合增长率约为16.1%，而定制ASIC的增长率为44.6%。四大云厂商（谷歌、微软、亚马逊、Meta）纷纷推出自家定制的AI加速器，如谷歌的TPU v7 Ironwood、微软的Maia 200、亚马逊的Trainium 3和Meta的MTIA。这些芯片在性能、功耗和成本方面各有优势，特别是定制ASIC在推理领域的成本效益更为突出。英伟达推出了Vera Rubin架构，试图在推理市场上夺回部分市场份额，但面对定制ASIC的竞争，英伟达的CUDA生态系统仍然是其主要优势。然而，随着定制ASIC的普及，英伟达在推理市场的份额可能会大幅下降。此外，台积电的3nm工艺成为各大厂商争夺的关键资源，导致芯片产能紧张。数据中心的基础设施也需要相应调整，以适应不同类型的AI加速器，包括散热、互联和组网等方面的变化。对于基础设施规划师、运维团队和战略决策者而言，未来的数据中心将面临更多挑战，需要制定相应的应对策略，以确保高效运行。

歪睿老哥

4892

04/28 16:36

ASIC TPU

TPU、Maia、Trainium、MTIA：四大云厂商围堵英伟达，推理算力不再姓“黄”？

谷歌第八代TPU深度拆解：专为Agentic AI设计，专门分两款打不同场景

谷歌推出第八代TPU，分为TPU 8t和TPU 8i两款芯片，分别针对大规模预训练和推理部署进行优化。TPU 8t采用3D环面网络拓扑，具备SparseCore和VPU/MXU并行能力，支持FP4和Virgo网络架构，提升了算力利用率和吞吐量。TPU 8i则优化了片上SRAM和CAE，采用Boardfly拓扑，降低延迟和提高并发能力。两款芯片共同提升了AI训练和推理的性能，并且保持了软件栈的兼容性和易用性。

歪睿老哥

2693

04/24 13:58

AI Agent TPU

谷歌Ironwood TPU全架构拆解：从单芯片到万卡超算，Gemini算力的底层密码

谷歌Ironwood AI芯片架构解析：双Die设计、第四代SparseCore、HBM3E显存、OCS光互联，实现单芯片4614 TFLOPS算力，托盘级系统支持9216芯集群，单舱可达42.5 Exaflops算力，具备高效能比和高可靠性。

歪睿老哥

1912

04/07 10:54

TPU

谷歌Ironwood TPU全架构拆解：从单芯片到万卡超算，Gemini算力的底层密码

算力大洗牌：GPU、TPU与“高阶TPU”的终极博弈

AI算力竞争加剧，GPU、TPU与高阶TPU三足鼎立。GPU虽通用但效能不足，TPU专精于AI运算，高阶TPU则兼具灵活性与高效性。英伟达收购Groq，凸显可重构计算的重要性。国产企业在高阶TPU领域积极布局，有望打破GPU垄断。

是说芯语

2000

03/11 09:44

GPU AI算力

全球算力格局震荡，“高阶TPU”崛起！

近日，多家外媒报道，非GPU芯片应用迎来爆发期，Meta与谷歌签署数十亿美元合作，大规模租用TPU训练模型；OpenAI计划导入英伟达基于Groq技术的AI推理芯片。谷歌计划在2027年部署600-700万颗TPU，大部分将供给Anthropic、OpenAI、Meta以及苹果等外部客户。OpenAI上线GPT-5.3-Codex-Spark，选择了Cerebras芯片进行推理任务，带来了更低延迟与更低能耗。面对日益清晰的算力变局，AI的竞争焦点正从单纯的算力规模，深刻转向对能效比与延迟的极致追求。

芯东西

1541

03/03 15:12

AI算力谷歌

受谷歌高速互连架构带动，预估2026年800G以上光收发模块占比将突破60%

为应对AI所需的庞大运算需求，Google（谷歌）新世代Ironwood机柜系统结合3D Torus网络拓扑、Apollo OCS全光网络，实现高速互连架构，将推升800G以上高速光收发模块在全球出货占比，预估将自2024年的19.5%上升至2026年的60%以上，并逐渐成为AI数据中心的标准配备。在搭配全光网络交换机OCS(optical circuit switch)的架构下，Ironwoo

与非网编辑

1725

02/10 14:40

AI TPU

TPU 的成功，是否正在宣告“GPU + CUDA 时代”的终结？

文章讨论了GPU和TPU两种计算架构的特点及其在不同场景下的适用性。GPU以其通用性和强大的软件生态系统著称，适用于广泛的应用领域；而TPU则通过垂直整合的方式，在大规模训练和推理方面展现出更高的性能和能效，尤其是在云计算环境中。尽管TPU在某些方面优于GPU，但在通用市场中两者仍会长期共存，形成互补关系。文章最后提出，对于大型云计算环境，垂直整合的TPU架构具有明显的长期竞争优势，而对于普通应用场景，则继续保持GPU的优势地位。

老虎说芯

1201

01/19 10:27

GPU TPU

什么是TPU

TPU是由Google专为人工智能计算定制的超级计算芯片。它专注于高效、节能地执行大规模重复计算任务，类似于专门制作汉堡的自动化生产线。相比CPU和GPU，TPU在处理AI计算时具有更高的效率和更低的成本。由于其针对性的设计，TPU能够显著降低AI计算的能耗和成本，从而推动AI技术的普及和应用。

老虎说芯

1542

01/19 10:26

TPU 超级计算

碳化硅模块振荡探究,振荡抑制策略

碳化硅MOS+模块+应用（芯片）

8960

01/16 10:24

电动汽车碳化硅

AI硬件全景解析：CPU、GPU、NPU、TPU的差异化之路，一文看懂！

开篇：AI硬件的“分工时代”已经到来当AI从实验室走向日常——从手机的实时翻译到数据中心的模型训练，从游戏的光线追踪到自动驾驶的环境感知，单一硬件已难以承载多样化的计算需求。传统CPU的“全能”模式逐渐被“专芯专用”取代，CPU、GPU、TPU、NPU各自锁定专属赛道，共同构成AI时代的硬件基石。本文将拆解这四类核心处理器的技术特性、应用场景及选择逻辑，帮你理清“什么场景该用什么硬件”的底层逻辑

腾视科技

2.4万

01/06 09:33

GPU CPU

谷歌TPU产量预测: 2027年达500万块

摩根士丹利预计Alphabet的TPU产量将在未来几年大幅增长，预计到2027年产量可达500万块，2028年增至约700万块，这将为公司带来数十亿美元的新增收入并推动每股收益提升。分析师认为，TPU供应的改善将为谷歌提供更多商业机会，尤其是向第三方数据中心运营商销售TPU，从而加强其云计算业务。

超算百科

604

2025/12/03

TPU

【光电共封CPO】谷歌TPU+ICI技术能否撼动英伟达AI算力霸主地位？

Google推出TPUv7芯片，凭借其卓越的系统性能和大规模扩展能力，挑战英伟达的GPU霸主地位。TPUv7具备4.6 PFLOPS算力和192GB HBM3e内存，通过ICI技术实现高效互联，降低总拥有成本(TCO)，并借助自研的光电路交换机(OCS)和Circulators技术，进一步优化性能和成本效益。

半导体产业研究

4395

2025/12/03

AI算力 TPU

中国新型TPU登场，瞄准英伟达AI芯片主导地位

中国AI芯片初创企业中昊芯英推出自主研发的张量处理单元（TPU），性能超越英伟达A100，功耗更低，成本更优，助力中国“去美国化”。公司由前谷歌TPU研发人员创办，拥有自主知识产权，未来有望成为国内AI芯片市场的关键替代选择。

半导体产业研究

1693

2025/12/01

AI芯片 TPU

53亿！“英伟达平替”获新融资

美国AI芯片独角兽Groq获7.5亿美元新融资，投后估值达69亿美元，计划扩大数据中心容量并加速全球业务布局。Groq的LPU芯片能效比其他系统高出10倍，适用于大模型优化，已适配主流开源模型并在云平台上提供服务。尽管去年底预测2025年营收超20亿美元，但因数据中心容量不足，今年下半年多次下调预期至5亿美元。

芯东西

867

2025/09/22

数据中心 TPU

这一战，谷歌准备了十年

谷歌开始对外出售TPU，试图抢夺英伟达在AI计算领域的市场份额。谷歌TPU专为AI计算设计，具备高能效比和低功耗特点，能够有效降低AI推理任务的成本。谷歌通过构建TPU生态系统，包括JAX和Pathway等工具，增强了其竞争力。尽管英伟达在CUDA生态上有明显优势，但谷歌凭借TPU的性能和成本优势，正逐渐成为其有力竞争对手。这场战役不仅是两家公司在硬件上的较量，也是对未来AI计算市场格局的影响。

半导体产业纵横

1241

2025/09/16

谷歌 AI计算