推理时代来临：GPU神话松动，谁在接管万亿算力市场？

关于AI算力，市场过去两年的主流叙事其实很简单：谁能堆出更多GPU，谁就更接近下一代基础设施的核心。

这个逻辑并没有错，它也确实把英伟达推上了无可争议的王座。但2026年的变化在于，AI已经不只是在“训练更大的模型”，而是在“服务更多的人、更多的调用、更多真实业务”。

McKinsey预计，到2030年，推理将超过训练，成为AI数据中心中的主导工作负载，并占到总数据中心需求的30%到40%；Brookfield的内部研究更激进，判断到2030年约75%的AI算力需求会来自推理。

两组口径并不完全一致，却指向同一件事：算力市场的关注点，正在从峰值性能，转向持续调用下的效率、功耗、带宽和系统总成本。

连英伟达自己都已经在为推理重写产品逻辑——GTC 2026上，它一边把AI芯片机会空间上调至2027年前至少1万亿美元，一边又推出Vera CPU，并把Groq推理加速器纳入Vera Rubin平台。

这说明一个更重要的现实：推理时代并不是“英伟达失灵”，而是“单靠GPU解释一切”开始失灵。

从训练到推理：AI需求结构的“重定价时刻”

过去两年，AI基础设施的主线围绕训练展开。大厂愿意为更大的参数、更长的训练周期和更高的模型上限持续投入，GPU自然成了最直接的受益者。

但2026年之后，另一种更难回避的商业现实开始冒头：模型训完以后，真正决定收入规模的，是它能不能被高频调用、低延迟响应，并在成本可控的前提下撑住用户规模。

McKinsey给出的判断很有代表性：到2030年，推理不仅会成为AI数据中心里的主导负载，还会占到全部数据中心需求的30%到40%。这意味着资本市场下一步要重估的，不再只是“谁能把模型训出来”，而是“谁能把模型跑得起、跑得久、跑得便宜”。

这也是为什么，英伟达自己并没有把推理当成边角料来处理。路透援引黄仁勋在GTC 2026上的表述称，英伟达把AI芯片的机会空间上调到2027年前至少1万亿美元，并明确说出“Inference inflection has arrived”。

更耐人寻味的是，这次英伟达拿出的不是一块更强的GPU那么简单，而是一整套更偏系统化的组合：Vera CPU负责前置环节，Groq芯片进入解码环节，BlueField、Spectrum等网络与数据路径也被重新塞回同一套叙事里。说白了，连英伟达都在用行动承认一件事：推理市场的竞争，不再只是单芯片战争，而是整机架、整系统、整成本结构的战争。

更大的背景是，云厂商并没有缩手，反而在把钱花向更接近商业兑现的环节。路透测算，Alphabet、Microsoft、Amazon和Meta在2026年的资本开支预计至少达到6300亿美元，主要投向数据中心和AI芯片。

ASML和TSMC在4月相继释放的信号也很一致：AI支出并没有熄火，产能反而还在紧张。问题只在于，这笔钱越来越不会只流向“最贵的那一类GPU”，而会流向能帮助客户把每次调用成本压低的整条链路。

推理不是把GPU换成CPU，而是把单点赛道改成系统生意

很多人喜欢把这件事讲成“CPU逆袭GPU”，但这其实说窄了。推理时代真正发生的，不是谁替代谁，而是谁在系统里重新拿回话语权。CPU、定制ASIC、网络芯片、内存与互联，过去被GPU光环压住的部分，正在重新成为决定总体效率的关键变量。

Intel和Google在4月宣布扩大合作时说得非常直接：Xeon将继续支撑Google Cloud在AI、推理和通用计算上的基础设施，双方还会加深对定制IPU的协同开发。

更有意思的是，英伟达自己的DGX Rubin NVL8，也继续采用Intel Xeon 6作为主机CPU。这说明在推理场景里，CPU不是退到后台，而是继续负责调度、内存访问、任务编排和系统级TCO。

Arm的动作更能说明问题。3月，Arm正式发布Arm AGI CPU，这是它历史上第一次把计算平台真正延伸到量产硅产品，目标直指agentic AI数据中心。公开资料显示，Meta、OpenAI等都出现在其合作阵营中；路透则提到，Arm预计这颗面向数据中心的新芯片在大约五年后可带来约150亿美元年收入。

你可以把这看成Arm从“卖IP抽成”走向“亲自下场拿系统价值”的一次试探，但更重要的是，它折射出整个行业的判断：Agent工作负载不是只需要加速器，它还需要一层能够高效组织、分配和喂饱这些加速器的通用计算底座。

另一条更锋利的线索，是ASIC和定制芯片的抬头。Broadcom已经把自己从“网络芯片公司”做成了AI基础设施里的关键卖铲人：公司2026财年第一财季AI相关收入达到84亿美元，同比增长106%，并预计第二财季AI半导体收入将增至107亿美元。

与此同时，Broadcom一边与Meta把合作延长到多代AI加速器，一边又与Google签下到2031年的长期协议，继续开发后者未来几代定制AI芯片。这里最重要的不是某一张订单有多大，而是大客户已经越来越习惯把“自研+代工设计+系统协同”当成新的主流路线，而不是继续把所有希望都押在标准化GPU上。

Marvell则更像这条路线上的高弹性标的。公司2026财年收入创纪录达到81.95亿美元，管理层同时给出更激进的中期展望：2027财年收入增长超过30%，2028财年收入接近150亿美元。

4月中旬又传出Google正与Marvell洽谈共同开发两款更高效运行AI模型的新芯片，其中一款还是与TPU配合使用的内存处理单元。无论这笔合作最终是否落地，一个趋势已经非常清楚：推理时代最有想象力的机会，正在从“谁卖标准芯片”，转向“谁能把定制算力、内存、互联、封装一起做成最优解”。

当然，这不意味着GPU失势。恰恰相反，GPU仍然是AI基础设施里最重要的核心部件之一，只是它不再天然等于“唯一解”。AMD与Meta在2月宣布的6吉瓦合作，就说明大客户一边继续重仓GPU，一边也在主动分散供应风险、降低单一供应商依赖。

今天的现实不是“去GPU”，而是“去单一路径”。对资本市场来说，这个变化的含义非常大：过去押中英伟达就像押中整条主线，未来更像是得押中一组能共同把成本打下来的基础设施组合。

投资范式切换：从“最强性能”到“最低成本”的资本迁移

以前先问性能，再问成本；以后大概率要先问成本，再问性能还能不能撑住规模化。

因为训练是阶段性投入，推理是持续性支出；训练可以容忍极致昂贵，推理要面对的是亿级用户、企业API调用、Agent长链路任务和越来越高的在线时间。只要这一点成立，资本就不会只追逐“最强芯片”，而会去追逐“最便宜地跑出结果”的整套能力。

从这个角度看，未来更可能跑出来的是三类资产。

第一类，仍然是加速器核心供应商，英伟达和AMD都在其中，因为训练和高端推理不可能绕开它们；

第二类，是帮大客户摆脱单一GPU依赖、把推理成本做薄的定制芯片与互联公司，Broadcom和Marvell最典型；

第三类，是不一定最热闹、但越来越难被绕开的CPU与架构/IP层，Intel和Arm分别代表了不同路线下的系统控制权。它们未必都能像英伟达那样拿到夸张溢价，但在推理时代，谁能占住系统中的“降本位置”，谁就更有资格吃到下一轮估值重估。

AI上半场，市场迷恋的是算力极限；AI下半场，市场更在意的是把算力变成服务之后，成本还能不能继续往下打。英伟达当然仍然会是核心公司，但它不再是唯一可以承载整个AI叙事的那只股票。

因为推理时代的价值，不只藏在GPU里，还藏在CPU调度、定制ASIC、网络互联、架构授权，甚至整套系统设计的协同里。谁能让模型在真实商业世界里以更低功耗、更低延迟、更低单次调用成本跑起来，谁才更接近下一阶段的定价权。

AI基础设施的下一轮赢家，未必是把芯片做得最强的人，而更可能是把AI做成基础设施、做成日用品、做成“可负担服务”的那一群人。

推理时代来临：GPU神话松动，谁在接管万亿算力市场？

从训练到推理：AI需求结构的“重定价时刻”

推理不是把GPU换成CPU，而是把单点赛道改成系统生意

投资范式切换：从“最强性能”到“最低成本”的资本迁移

相关推荐