我觉得老黄这次GTC2026有句话说得好:
Token是AI时代的基本构建块。
未来的AI算力需求从“训练(Training)为主”向“推理(Inference)为主”的不可逆转的结构性转变。
推理时代需要啥?
当然就是多,快,好,省产token。
基于这个判断,老黄遇到了一个难题。
传统GPU在训练阶段凭借海量数据吞吐量占据绝对统治地位,但在生成式AI的推理阶段——特别是自回归解码(Autoregressive Decoding)过程中却受制于“内存墙(Memory Wall)”问题,导致高昂的延迟与低效的能源利用 。
说人话,就是传统GPU架构在推理上,并不是最优的。
另外,也不是最快的。
AI Agent工作流需要模型在几秒钟内完成数十次工具调用和内部推理链的迭代,这使得“首字时间(TTFT)”和“字间延迟(ITL)”成为决定商业应用成败的核心指标
为了在推理时代也能构建起护城河。
所以老黄在GTC202之前就以200亿美元现金收购了芯片初创公司Groq的核心知识产权(IP)及工程团队 。
Groq是LPU,专门为了产生token而设计的ASIC。
这场交易在结构上极为特殊:为了规避联邦贸易委员会(FTC)严苛的反垄断审查,NVIDIA并未直接全资收购Groq公司本身,而是通过签署“非排他性推理技术许可协议”,支付了200亿美元的“许可费”,并吸收了包括Groq创始人(前Google TPU项目核心工程师)Jonathan Ross和总裁Sunny Madra在内的80%核心工程人员 。
哈哈,要知道包括Groq创始人Jonathan Ross是前Google TPU项目核心工程师,看来老黄也要也是曲线挖了TPU的墙角。
这场收购意义和结果是什么?
就是今天这场2026 GTC的大会。
从技术架构上说,就是在在NVIDIA“GPU海量并行”的CUDA生态,
又加上了与Groq以编译器为核心的“软件定义硬件”LPU确定性架构 。
通过将Groq的语言处理单元(LPU)技术融入其新一代Vera Rubin架构。
这一次NVIDIA彻底重构了AI计算的底层逻辑,宣告了以单一通用GPU应对所有AI工作负载的时代正式终结 。
只有架构融合,才能实现多,快,好,省的产token。
于是GTC2026,我们看到:
Vera Rubin POD来了!
Rubin GPU来了
LPU也来了!
一:Vera Rubin POD——七芯片协同的超级计算工厂
NVIDIA在GTC 2026上推出的Vera Rubin平台(以证实暗物质存在的先驱天文学家Vera Florence Cooper Rubin命名),是其第三代机架级架构的巅峰之作 。
该平台摒弃了孤立的芯片设计思路,采用极端的软硬件协同设计(Extreme Co-design),将七款处于全面量产阶段的专用芯片融为一体,构成了一个无缝协作的巨型AI超级计算机 。
Vera Rubin POD被定义为目前最复杂的POD级AI平台,基于第三代NVIDIA MGX机架架构构建 。
那么,Vera Rubin POD包括什么?
这是在全规模部署下,一个标准的Vera Rubin POD的物理与计算规模:
物理规模:包含40个计算与网络机架 。
晶体管数量:系统集成高达1.2千万亿(Quadrillion)个晶体管 。
芯片组件:包含近20,000个NVIDIA独立芯片Die,其中包括1,152个Rubin GPU 。
聚合算力:提供高达60 Exaflops(百亿亿次)的AI计算能力 。
网络带宽:总纵向扩展(Scale-up)带宽达到惊人的10 PB/s 。
这种POD级系统设计,意味着数据中心的建设重心已从“采购服务器”转向了“采购整体AI工厂” 。
Vera Rubin POD的七款核心芯片各自承担着高度专业化的任务,覆盖了从预训练、后训练、测试时扩展到实时推理的全生命周期 :
NVIDIA Rubin GPU:处理高吞吐量的预训练、预填充(Prefill)及大规模张量计算 。
NVIDIA Vera CPU:专为数据移动、大规模强化学习(RL)和代理沙盒环境设计的中央处理器 。
NVIDIA Groq 3 LPU:新近集成的推理加速器,专攻极低延迟的Token自回归解码与专家网络(MoE)路由 。
NVIDIA NVLink 6 Switch:提供机架内数百个GPU/CPU之间的高速无阻塞互联 。
NVIDIA ConnectX-9 SuperNIC:前端网络接口,优化节点间的高性能网络传输 。
NVIDIA BlueField-4 DPU:整合了Vera CPU核心与ConnectX技术的数据处理单元,构成了AI原生存储系统(如BlueField-4 STX)的基础,专门用于加速键值(KV)缓存的分布式管理 。
NVIDIA Spectrum-6 交换机:带宽高达102.4 Tb/s的以太网交换机,采用硅光子集成技术和200 Gb/s的共封装光学器件(CPO),为东西向流量提供低延迟支撑 。
七件武器,融合成了Vera Rubin POD这件武器,这是英伟达在AI从训练到推理,从pre-trianing的算子灵活性,到token为王TOC降低的转变
二:屠龙刀:Rubin GPU (R100)——算力担当:
在异构计算的范式中,Rubin GPU和Vera CPU构成了处理大规模上下文、进行模型训练和支持复杂代理工作流的绝对主力。
作为Blackwell架构(B200)的继任者,Rubin GPU(代号R100)专为“推理时代的预填充与训练”而生 。该芯片采用台积电(TSMC)最先进的3纳米(N3P)制程工艺制造,单芯片集成了高达3,360亿个晶体管,其晶体管密度几乎是上一代Blackwell的两倍 。
在计算性能方面,Rubin架构在各类精度上均实现了代际飞跃。特别是针对AI推理极致优化的FP4(4位浮点)精度,单颗Rubin GPU能够提供高达50 PFLOPS的算力,是Blackwell(20 PFLOPS)的2.5倍 。NVID
IA的张量核心(Tensor Cores)通过实施微架构级别的优化和潜在的Ozaki仿真方案,使得低精度矩阵乘法在保证位级精度的同时实现了吞吐量的狂飙 。
以下是Hopper、Blackwell与Rubin架构在核心计算精度上的演进对比:
| 计算能力指标 | NVIDIA Hopper GPU | NVIDIA Blackwell GPU | NVIDIA Rubin GPU |
| FP64 向量性能 (TFLOPS) | 34 | 40 | 33 |
| FP32 向量性能 (TFLOPS) | 67 | 80 | 130 |
| FP8 张量训练 (PFLOPS) | 4 | 5 | 17.5 |
| NVFP4 推理计算 (PFLOPS) | N/A | 10 | 50 |
| 晶体管数量 | ~800亿 | ~2080亿 | 3360亿 |
Rubin GPU搭载了第六代高带宽内存(HBM4) 。
三星电子的HBM4采用其最先进的1c(10纳米级)DRAM工艺,并引入了混合铜键合(HCB)技术 。这使得Rubin GPU的单芯片内存容量达到了288GB,单芯片内存带宽飙升至22 TB/s
每个引脚速度达到11.7 Gbps至13 Gbps之间,未来HBM4E甚至可达16 Gbps 。
这种海量的HBM4容量,是容纳万亿参数模型权重以及处理千万级长度用户上下文序列不可或缺的物理基础。
三:倚天剑:Groq 3 LPU——打破内存墙的确定性架构
如果说Rubin GPU代表了NVIDIA在传统高吞吐量架构上的登峰造极,那么Groq 3 LPU的加入,则填补了NVIDIA在超低延迟、小批量推理场景下的关键短板 。
生成式AI的推理过程呈现出高度不对称的计算特征。在接收用户输入(Prompt)的预填充(Prefill)阶段,模型可以对所有输入Token进行并行计算,这极其契合GPU的海量并行架构 。
然而,在生成回复的解码(Decode)阶段,模型必须采用自回归(Autoregressive)方式,即前一个生成的Token作为下一个Token生成的输入 。
在这种逐字生成的模式下,每次计算一个Token,系统都必须将整个模型的权重从显存中加载到计算核心。
在小批量(Small-batch)甚至单用户并发的情况下,GPU的算术逻辑单元(ALU)大部分时间都在等待数据从HBM中传输过来,导致计算单元的利用率极低 。这就形成了著名的“内存墙”。尽管HBM3e/HBM4的带宽已经很高,但每次读取依然存在不可忽视的物理延迟 。
Groq团队(其核心成员曾是Google初代TPU架构的缔造者)从零开始设计了语言处理单元(LPU)来解决这一痛点 。
LPU的哲学是:“速度即确定性(Determinism is speed)”,并愿意为了极致的延迟牺牲计算密度和内存容量 。
Groq 3 LPU最显著的物理特征是彻底抛弃了HBM,转而采用纯静态随机存取存储器(SRAM)作为工作内存 。
每个Groq 3芯片内部包含一个被称为MEM Block的扁平化结构,由88个独立的MEM切片组成(每个切片具有8192个地址),提供总计约500 MB的极速片上SRAM 。
尽管500 MB的容量在288 GB的HBM4面前显得微不足道,但这种设计换来的是打破物理极限的带宽。
单颗Groq 3芯片的SRAM带宽高达80 TB/s至150 TB/s,是Rubin GPU的HBM4带宽(22 TB/s)的近十倍 。
这使得模型权重能够以“光速”喂给计算单元,彻底消除了内存瓶颈 。
在微架构层面,LPU采用了张量优先计算(Tensor-first compute)和显式数据移动机制。
与GPU中以线程和Warp为基础的调度不同,LPU中的所有算术运算、内存访问和设备间传输都围绕固定大小的320字节向量(320-byte vectors)进行组织 。
对单个MEM切片的读取会创建一个320字节的数据流,这种极度规整的数据结构极大地简化了同步与调度复杂度 。
LPU之所以能实现超越人类阅读速度数十倍的生成效率(如在Llama 3 8B上突破800 TPS),根本原因在于其“软件定义硬件”的确定性执行模型 。
传统的CPU和GPU包含大量的“反应性元素(Reactive elements)”,如复杂的高速缓存(Cache)、分支预测器和动态调度仲裁器 。
这些硬件设计旨在不可预测的通用计算负载中提升平均性能,但在AI推理中,它们引入了系统抖动(Jitter)和不可预测的延迟 。
Groq 3 LPU在物理硅片上移除了所有的动态仲裁硬件,将其全部责任转移给了一个极度智能的定制编译器 。该编译器在程序运行前,会对模型进行全局的时空编排(Spatial Orchestration):
时间确定性:编译器确切知道每一个微指令将消耗多少个时钟周期 。
空间确定性:编译器规划数据在物理芯片“传送带(Conveyor belts)”上的精确移动轨迹。例如,它知道在第1,000,050个周期时,一个数据包将精确抵达坐标(X, Y)准备被消耗 。
由于一切都在编译阶段固定,系统运行时的方差(Variance)降至绝对的零。
这种硬核的确定性保证了即使在极高并发下,每一条指令的执行延迟也如同发条一样精确 。
面对动辄数千亿参数的前沿大模型,单个LPU的500MB SRAM显然无法装下完整的模型权重。因此,部署LPU必须依赖于横向扩展(Scale-out)组成的巨型集群。
为此,NVIDIA推出了Groq 3 LPX推理加速机架 。
一个标准的LPX机架包含32个液冷1U计算托盘,采用无缆化设计,总共集成了256个Groq 3 LPU加速器 。
在互联技术上,LPX没有使用传统网络,而是采用了定制的近同步(Plesiosynchronous)协议和软件调度的芯片到芯片(C2C)直接互联网络 。
由于编译器的绝对控制,数据在不同LPU节点间的发送(Send)和接收(Recv)在确切的时钟周期发生,网络中不需要任何自适应路由或拥塞感知逻辑 。
系统级性能参数如下:
机架级SRAM容量:128 GB 。
片上聚合SRAM带宽:高达惊人的40 PB/s 。
纵向扩展互联带宽:640 TB/s 。
聚合算力:提供约315 PFLOPS的AI推理算力 。
在机架布局上,LPX机架被集成到了MGX ETL(提取、转换、加载)机架架构中,能够通过NVIDIA Spectrum-X以太网与Vera Rubin NVL72系统并排部署,构成高度定制化的异构数据中心基建 。
四:屠龙刀GPU和倚天剑LPU,如何双剑合璧。
将拥有海量HBM但单批次延迟较高的Rubin GPU,与拥有光速SRAM但容量极小的Groq 3 LPU强行组合在一起,需要架构设计上的惊人创新。
NVIDIA给出的答案是:注意力与前馈网络解耦(Attention-FFN Disaggregation, 简称AFD) 。
这不仅是一项硬件路由技术,更是一次对Transformer模型运行机制的物理重构。
随着语言模型演进到支持数百万乃至上千万Token的超长上下文,推理过程中的键值缓存(KV Cache)体积呈现出指数级增长 。
每一轮新Token的生成,都需要对之前所有的KV Cache进行注意力机制(Attention)计算。
这导致Transformer模型的不同层级出现了截然不同的资源需求:
注意力层(Attention Layers):需要极大的内存容量来存储庞大的KV Cache矩阵,且属于计算密集型任务(高算术强度),这正是GPU擅长的领域 。
前馈网络层(FFN)与混合专家系统(MoE):前馈网络涉及庞大的权重矩阵读取,特别是当模型采用细粒度的混合专家架构时,只有极少部分参数被激活。这属于典型的内存带宽受限(Memory-bound)任务,极度对延迟敏感,这正是LPU的绝对主场 。
AFD架构(有时也被称为解码阶段解耦,Decode Phase Disaggregation)将传统的单体模型推理生生撕裂,分配给两套不同的物理引擎执行 :
Rubin NVL72 阵列:作为“重装步兵”,主要负责处理庞大的Prompt预填充(Prefill)阶段,构建出初始的KV Cache矩阵;并在随后的解码阶段,负责管理这些KV Cache,执行算力密集的自注意力(Self-Attention)计算 。
Groq 3 LPX 机架:作为“低延迟狙击手”,主要负责承接从注意力层传递过来的中间激活值(Activations),在其纯SRAM的超高带宽环境中,以极低延迟完成FFN网络和MoE专家的前向传播,随后将结果传回GPU 。
为了使这种跨机架的数据交互不成为新的性能瓶颈,系统设计中引入了至少三批次重叠(Three-batch overlap, 3BO)的流水线机制 。
在此机制下,系统被分为独立的注意力算子流和FFN算子流。
为了使这种跨机架的数据交互不成为新的性能瓶颈,系统设计中引入了至少三批次重叠(Three-batch overlap, 3BO)的流水线机制 。
在此机制下,系统被分为独立的注意力算子流和FFN算子流。
在任意给定的时刻(微批次周期内),当机架间的网络正在传输批次N的特征时,GPU正在计算批次N+1的注意力,而LPU正在计算(延迟 )批次N-1的FFN 。通过这种极端的空间并行和流水线掩盖,AFD巧妙地隐藏了网络传输延迟。
当Vera Rubin与LPX基于AFD架构协同部署时,系统能够同时兼顾传统上无法共存的“超高系统吞吐量”与“极低用户交互延迟” 。
NVIDIA的官方基准测试表明,针对万亿参数规模的混合专家模型(如具有千万级上下文深度的前沿模型)。
与上一代Blackwell平台相比,采用Groq 3 LPX增强的Vera Rubin架构带来了令人咋舌的性能提升:
每兆瓦的推理吞吐量(Tokens per Megawatt)提升高达35倍 。
在同等物理空间和能耗预算下,由于极高频的并发响应能力,为AI服务提供商创造了高达10倍的额外收入机会(Revenue Opportunity) 。
这一架构直接将Speculative Decoding推测解码机制推向极致:
LPX利用其超低延迟架构快速生成海量“草稿Token”,而Rubin GPU则利用其高吞吐量特征对这些草稿进行高效验证和最终敲定 。
五:NVIDIA Dynamo——Agentic AI时代的“操作系统”
强大的异构硬件必须依赖更加智能的软件堆栈来进行调度。为了管理复杂的AFD架构并协调数十个机架间的资源,NVIDIA在GTC 2026上宣布其开源分布式推理框架NVIDIA Dynamo 1.0。
Dynamo被定位为“AI时代的操作系统”,其核心使命是在大规模集群中解耦各个推理阶段,并智能地路由请求以避免任何冗余计算 。
在传统负载均衡体系中,请求通常被随机或基于轮询(Round-robin)分配给可用节点。但在长上下文时代,重新计算一个包含数万Token的Prompt可能需要消耗几秒甚至十几秒的GPU时间 。
为了解决这个问题,Dynamo内置的智能路由器(Smart Router)引入了KV缓存感知路由(KV-aware Routing)机制。
其工作原理如下:
状态跟踪与基数树(Radix Tree):路由器维护着集群中所有节点的状态。其中,“前缀块(Prefix blocks,即已缓存的KV块)”通过内存中的基数树结构进行追踪,并由NATS JetStream事件流和对象存储快照提供持久化备份;而“活动块(Active blocks,即当前正在解码的块)”则作为临时状态被跟踪 。
重叠分数(Overlap Score)计算:当一个新的推理请求到达时,路由器会分析其Prompt内容,并计算该请求与当前分布式GPU集群中已存在的所有KV缓存块之间的“重叠分数” 。
概率性决策路由:路由器不仅考虑重叠分数以最大化缓存命中率,还会综合评估目标工作节点的队列深度与负载情况。通过加权这些因素,它做出概率性的最佳路由决策,将请求定向到最合适的GPU计算节点 。
在实际生产环境中(如Baseten的部署测试中),Dynamo的KV缓存感知路由使得Qwen3 Coder 480B等超大模型在面临多轮复杂对话(如AI Agent调用)时,首字响应时间(TTFT)缩短了一半,吞吐量提升了1.6倍 。
通过向路由器注入针对多轮Agent的特定提示(Agentic hints,包括延迟敏感度、预期输出长度等),Dynamo的推理速度甚至能再加速4倍 。
由于HBM容量的昂贵与稀缺,单靠GPU内存无法维系企业级应用中成千上万个并发用户的长期上下文历史。
Dynamo通过KV Cache Block Manager (KVBM) 提供了一套精妙的多层存储卸载(Offloading)方案 。
KVBM将整个数据中心的存储资源抽象为四个层级结构 :
G1 层:GPU内建的超高速HBM(如Rubin的HBM4),拥有最高优先级和带宽。
G2 层:Vera CPU机架的系统共享DRAM。
G3 层:计算节点内部署的本地NVMe SSD闪存。
G4 层:通过BlueField-4 DPU连接的远端网络存储(如对象存储S3、块存储或文件存储等)。
当G1内存面临压力时,KVBM会根据定制的驱逐策略(Eviction policy),将暂时不活跃的上下文块异步降级转移至G2、G3甚至G4层 。
这种层次化的存储策略允许组织在极低的成本下管理可能高达数PB的KV缓存池,彻底打破了模型并发上下文长度的物理天花板 。
Vera Rubin架构、Groq 3 LPU、AFD分离计算与Dynamo软件栈的完美闭环,正在现实世界的前沿大模型中爆发出惊人的威力,同时也深刻改写了整个半导体行业的竞争格局。
六:双剑合璧,谁与争锋?
独立的AI基准测试服务机构Artificial Analysis的最新测试结果,直观地展示了NVIDIA新一代基建的恐怖统治力。
在搭载了8块最新架构GPU(基于Blackwell及其向Rubin演进的微架构)的单台节点上,Meta新一代4000亿参数旗舰模型Llama 4 Maverick创下了超过1,000 TPS(Tokens per Second)/每用户的惊人解码速度世界纪录;
在最大吞吐量配置下,单服务器甚至达到了72,000 TPS 。
科技行业长期存在一个隐含的性能成本——“图灵关税(Turing Tariff)”。它指的是为了使处理器(如CPU或通用GPU)具备处理任意类型计算任务的图灵完备能力,芯片必须在硅片面积、功耗和执行时间上付出巨大的额外开销(例如容纳海量的高速缓存和复杂的指令预测逻辑) 。
随着AI推理占据数据中心超过50%的总计算需求,市场开始要求专门针对确定性序列生成进行优化的物理硬件 。
Groq LPU的崛起,证明了在极度特定的AI流水线上,抛弃通用性、拥抱绝对确定性的ASIC(专用集成电路)架构能够提供数倍于通用架构的性能提升 。
竞争对手如AMD(凭借MI355X更大的HBM容量优势)和Cerebras(凭借CS-3晶圆级21PB极速SRAM架构优势)均试图在这一范式转移中分一杯羹 。
特别是Cerebras,其独立的基准测试曾显示,基于其晶圆级芯片架构的模型推理速度远超NVIDIA旧架构和早期的Groq系统 。
通过高达200亿美元的“非传统收购”将Groq 3 LPU纳入麾下,NVIDIA完成了一次教科书般的防御性战略狙击 。
这不仅立即弥补了NVIDIA在超低延迟和纯SRAM内存流架构上的理论短板,更通过Vera Rubin POD系统,将原本只能在通用性与低延迟之间二选一的市场,强行整合入一个单一的异构框架中 。
这在物理层面和商业生态层面,都为NVIDIA筑起了一道护城河。
当Rubin GPU的海量并行算力,遇上Groq 3 LPU的极致延迟突破;当AFD架构的精妙解耦,碰撞Dynamo软件栈的智能调度,英伟达在GTC2026交出的,从来不是一款单纯的硬件升级,而是一套重构AI推理底层逻辑的完整解决方案。
这场以200亿美元为序章的布局,不是简单的技术叠加,而是对“推理为王”时代的精准预判,更是对AI算力边界的大胆重构。
它彻底打破了“通用GPU包打天下”的旧格局,终结了“高吞吐量与低延迟不可共存”的行业困局,用“异构融合”的思路,破解了困扰大模型推理已久的“内存墙”难题——35倍的能效提升、10倍的收入潜力。
从训练到推理,从单一架构到异构协同,英伟达用GPU与LPU的双剑合璧,不仅为自己筑起了新的技术护城河,更定义了下一代AI基建的核心范式。
当AI Agent、具身智能成为未来趋势,当Token生成效率决定商业成败,这场由算力革命,早已不止于芯片层面的突破,更是对整个AI产业发展路径的重新锚定。
通用落幕,异构登场。
GTC2026之后,AI推理的底层逻辑已被改写,而双剑合璧的力量,终将驱动AI突破物理瓶颈,奔赴一个更高效、更智能、更具想象力的未来。
在未来的十年,计算的本质不再是单一芯片的独立突破,而是极端的软硬件协同设计、定制化异构网络的融合,以及对系统边界的重构。
LPU正当其时。
6033
