CES 2026 黄仁勋正式宣布其新一代 AI 超级计算平台 Vera Rubin 已进入全面投产阶段。
根据英伟达公布的数据,Rubin GPU 搭载第三代 Transformer 引擎,NVFP4 推理/训练算力达到 50/35 PFLOPS,达到前代 Blackwell 的 5/3.5 倍;HBM4 带宽 22TB/s,为前代 的 2.8 倍;晶体管数量 3360 亿个,为 Blackwell 的 1.6 倍。
Vera Rubin 全面投产,重构存储架构改善“内存 墙”困境Rubin 平台重构 HBM、DRAM、NAND 三层存储金字塔存储架构。在 Agentic AI 时代,智能体需要记住漫长的对话 历史和复杂的上下文,这会产生巨大的 KV Cache。传统的解决方案是 将这些数据塞进昂贵的 HBM 显存中,但 HBM 容量有限且价格高昂。英伟达为此设计全新的存储架构,推出了由 BlueField-4 驱动的第三层 推理上下文内存存储平台,让每秒处理的 token 数提升高达 5 倍。
HBM:Rubin GPU 升级为 HBM4,成为与 GPU 紧紧绑定的 “计算核心”
Rubin GPU 集成了新一代高带宽内存 HBM4,其接口宽度较 HBM3e 增加一倍。通过新内存控制器、与内存生态系统的深度协同设计及更 紧密的计算-内存集成,Rubin GPU 的内存带宽几乎达到了 Blackwell 的三倍。
数量上,每颗 Rubin GPU HBM4,容量 288GB,带宽 22TB/s,不再只是 GPU 附近的“高速缓存”,而是整个系统吞吐的硬约束。单 价上,HBM4 较 3e 显著提升,有望明显带动原厂的毛利率提升。
DRAM:Vera CPU 升级为 LPDDR5X,负责存放温热数据(KV 缓存)
Vera 将 SCF 与高达 1.5TB 的 LPDDR5X 内存子系统(Grace 内存为 480GB LPDDR5X)相结合,能在低功耗下提供高达 1.2TB/s 的带宽 (Grace 带宽为 512GB/s)。应用上,可将 LPDDR5X 和 HBM4 视为单一 的一致性内存池,减少数据移动开销,并支持 KV 缓存卸载和高效多 模型执行等技术。
单价上,服务器端高端 DRAM 价格/盈利显著提升, 消费端 DRAM 在被动挤压中承受成本压力和价格传导,形成“AI 优先” 的新一轮结构性涨价周期。
NAND:推出 BlueField-4 驱动的推理上下文内存存储平台,有望成为与 GPU 数量线性相关的通胀品
Vera Rubin 在机架内部署 BlueField-4 处理器,专门管理 KV Cache。BlueField-4 集成了 64 核 Grace CPU 和高带宽 LPDDR5X 内存, 以及 ConnectX-9 网络,可提供高达 800 Gb/s 的超低延迟以太网或 InfiniBand 连接。
容量方面,在每个 GPU 原有 1TB 内存的基础上, BlueField-4 DPU 内存存储平台额外增加了 16TB 内存/每 GPU,对于NVL 72 机架则增加 1152TB 内存。单价上,受到云服务商和 AI 应用需 求的增长,行业预计 2026 年全年的 NAND 价格两位数百分比上涨。AI/GPU/CPU芯片专题资料都已上传至“智能计算芯知识”星球。
更多芯片资料请参阅”《50+份智算行业深度梳理合集》“,“《105+份GPU芯片技术及白皮书合集》”,“《100+份AI芯片技术修炼合集》”,“《42+份半导体芯片图谱》”,“《70+份半导体研究框架》”等。
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
401
