• 正文
  • 相关推荐
申请入驻 产业图谱

推理时代来临:GPU神话松动,谁在接管万亿算力市场?

04/23 13:40
1321
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

关于AI算力,市场过去两年的主流叙事其实很简单:谁能堆出更多GPU,谁就更接近下一代基础设施的核心。

这个逻辑并没有错,它也确实把英伟达推上了无可争议的王座。但2026年的变化在于,AI已经不只是在“训练更大的模型”,而是在“服务更多的人、更多的调用、更多真实业务”。

McKinsey预计,到2030年,推理将超过训练,成为AI数据中心中的主导工作负载,并占到总数据中心需求的30%到40%;Brookfield的内部研究更激进,判断到2030年约75%的AI算力需求会来自推理。

两组口径并不完全一致,却指向同一件事:算力市场的关注点,正在从峰值性能,转向持续调用下的效率、功耗、带宽和系统总成本。

连英伟达自己都已经在为推理重写产品逻辑——GTC 2026上,它一边把AI芯片机会空间上调至2027年前至少1万亿美元,一边又推出Vera CPU,并把Groq推理加速器纳入Vera Rubin平台。

这说明一个更重要的现实:推理时代并不是“英伟达失灵”,而是“单靠GPU解释一切”开始失灵。

从训练到推理:AI需求结构的“重定价时刻”

过去两年,AI基础设施的主线围绕训练展开。大厂愿意为更大的参数、更长的训练周期和更高的模型上限持续投入,GPU自然成了最直接的受益者。

但2026年之后,另一种更难回避的商业现实开始冒头:模型训完以后,真正决定收入规模的,是它能不能被高频调用、低延迟响应,并在成本可控的前提下撑住用户规模。

McKinsey给出的判断很有代表性:到2030年,推理不仅会成为AI数据中心里的主导负载,还会占到全部数据中心需求的30%到40%。这意味着资本市场下一步要重估的,不再只是“谁能把模型训出来”,而是“谁能把模型跑得起、跑得久、跑得便宜”。

这也是为什么,英伟达自己并没有把推理当成边角料来处理。路透援引黄仁勋在GTC 2026上的表述称,英伟达把AI芯片的机会空间上调到2027年前至少1万亿美元,并明确说出“Inference inflection has arrived”。

更耐人寻味的是,这次英伟达拿出的不是一块更强的GPU那么简单,而是一整套更偏系统化的组合:Vera CPU负责前置环节,Groq芯片进入解码环节,BlueField、Spectrum等网络与数据路径也被重新塞回同一套叙事里。说白了,连英伟达都在用行动承认一件事:推理市场的竞争,不再只是单芯片战争,而是整机架、整系统、整成本结构的战争。

更大的背景是,云厂商并没有缩手,反而在把钱花向更接近商业兑现的环节。路透测算,Alphabet、Microsoft、Amazon和Meta在2026年的资本开支预计至少达到6300亿美元,主要投向数据中心和AI芯片。

ASML和TSMC在4月相继释放的信号也很一致:AI支出并没有熄火,产能反而还在紧张。问题只在于,这笔钱越来越不会只流向“最贵的那一类GPU”,而会流向能帮助客户把每次调用成本压低的整条链路。

推理不是把GPU换成CPU,而是把单点赛道改成系统生意

很多人喜欢把这件事讲成“CPU逆袭GPU”,但这其实说窄了。推理时代真正发生的,不是谁替代谁,而是谁在系统里重新拿回话语权。CPU、定制ASIC、网络芯片、内存与互联,过去被GPU光环压住的部分,正在重新成为决定总体效率的关键变量。

Intel和Google在4月宣布扩大合作时说得非常直接:Xeon将继续支撑Google Cloud在AI、推理和通用计算上的基础设施,双方还会加深对定制IPU的协同开发。

更有意思的是,英伟达自己的DGX Rubin NVL8,也继续采用Intel Xeon 6作为主机CPU。这说明在推理场景里,CPU不是退到后台,而是继续负责调度、内存访问、任务编排和系统级TCO。

Arm的动作更能说明问题。3月,Arm正式发布Arm AGI CPU,这是它历史上第一次把计算平台真正延伸到量产硅产品,目标直指agentic AI数据中心。公开资料显示,Meta、OpenAI等都出现在其合作阵营中;路透则提到,Arm预计这颗面向数据中心的新芯片在大约五年后可带来约150亿美元年收入。

你可以把这看成Arm从“卖IP抽成”走向“亲自下场拿系统价值”的一次试探,但更重要的是,它折射出整个行业的判断:Agent工作负载不是只需要加速器,它还需要一层能够高效组织、分配和喂饱这些加速器的通用计算底座。

另一条更锋利的线索,是ASIC和定制芯片的抬头。Broadcom已经把自己从“网络芯片公司”做成了AI基础设施里的关键卖铲人:公司2026财年第一财季AI相关收入达到84亿美元,同比增长106%,并预计第二财季AI半导体收入将增至107亿美元。

与此同时,Broadcom一边与Meta把合作延长到多代AI加速器,一边又与Google签下到2031年的长期协议,继续开发后者未来几代定制AI芯片。这里最重要的不是某一张订单有多大,而是大客户已经越来越习惯把“自研+代工设计+系统协同”当成新的主流路线,而不是继续把所有希望都押在标准化GPU上。

Marvell则更像这条路线上的高弹性标的。公司2026财年收入创纪录达到81.95亿美元,管理层同时给出更激进的中期展望:2027财年收入增长超过30%,2028财年收入接近150亿美元。

4月中旬又传出Google正与Marvell洽谈共同开发两款更高效运行AI模型的新芯片,其中一款还是与TPU配合使用的内存处理单元。无论这笔合作最终是否落地,一个趋势已经非常清楚:推理时代最有想象力的机会,正在从“谁卖标准芯片”,转向“谁能把定制算力、内存、互联、封装一起做成最优解”。

当然,这不意味着GPU失势。恰恰相反,GPU仍然是AI基础设施里最重要的核心部件之一,只是它不再天然等于“唯一解”。AMD与Meta在2月宣布的6吉瓦合作,就说明大客户一边继续重仓GPU,一边也在主动分散供应风险、降低单一供应商依赖。

今天的现实不是“去GPU”,而是“去单一路径”。对资本市场来说,这个变化的含义非常大:过去押中英伟达就像押中整条主线,未来更像是得押中一组能共同把成本打下来的基础设施组合。

投资范式切换:从“最强性能”到“最低成本”的资本迁移

以前先问性能,再问成本;以后大概率要先问成本,再问性能还能不能撑住规模化。

因为训练是阶段性投入,推理是持续性支出;训练可以容忍极致昂贵,推理要面对的是亿级用户、企业API调用、Agent长链路任务和越来越高的在线时间。只要这一点成立,资本就不会只追逐“最强芯片”,而会去追逐“最便宜地跑出结果”的整套能力。

从这个角度看,未来更可能跑出来的是三类资产。

第一类,仍然是加速器核心供应商,英伟达和AMD都在其中,因为训练和高端推理不可能绕开它们;

第二类,是帮大客户摆脱单一GPU依赖、把推理成本做薄的定制芯片与互联公司,Broadcom和Marvell最典型;

第三类,是不一定最热闹、但越来越难被绕开的CPU与架构/IP层,Intel和Arm分别代表了不同路线下的系统控制权。它们未必都能像英伟达那样拿到夸张溢价,但在推理时代,谁能占住系统中的“降本位置”,谁就更有资格吃到下一轮估值重估。

AI上半场,市场迷恋的是算力极限;AI下半场,市场更在意的是把算力变成服务之后,成本还能不能继续往下打。英伟达当然仍然会是核心公司,但它不再是唯一可以承载整个AI叙事的那只股票。

因为推理时代的价值,不只藏在GPU里,还藏在CPU调度、定制ASIC、网络互联、架构授权,甚至整套系统设计的协同里。谁能让模型在真实商业世界里以更低功耗、更低延迟、更低单次调用成本跑起来,谁才更接近下一阶段的定价权。

AI基础设施的下一轮赢家,未必是把芯片做得最强的人,而更可能是把AI做成基础设施、做成日用品、做成“可负担服务”的那一群人。

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录

美股研究社,一个专注研究美股的平台,专业的每股投资人都在这。想了解美国股市行情、美股开户、美股资讯、美股公司;想获得一手美股重磅信息;想加入美股交流社群,敬请加入我们吧!