英伟达Vera Rubin：以 HBM/DRAM/NAND 重构AI高带宽、大容量、低延迟诉求

CES 2026 黄仁勋正式宣布其新一代 AI 超级计算平台 Vera Rubin 已进入全面投产阶段。

根据英伟达公布的数据，Rubin GPU 搭载第三代 Transformer 引擎，NVFP4 推理/训练算力达到 50/35 PFLOPS,达到前代 Blackwell 的 5/3.5 倍；HBM4 带宽 22TB/s，为前代的 2.8 倍；晶体管数量 3360 亿个，为 Blackwell 的 1.6 倍。

Vera Rubin 全面投产，重构存储架构改善“内存墙”困境Rubin 平台重构 HBM、DRAM、NAND 三层存储金字塔存储架构。在 Agentic AI 时代，智能体需要记住漫长的对话历史和复杂的上下文，这会产生巨大的 KV Cache。传统的解决方案是将这些数据塞进昂贵的 HBM 显存中，但 HBM 容量有限且价格高昂。英伟达为此设计全新的存储架构，推出了由 BlueField-4 驱动的第三层推理上下文内存存储平台，让每秒处理的 token 数提升高达 5 倍。

HBM：Rubin GPU 升级为 HBM4，成为与 GPU 紧紧绑定的 “计算核心”

Rubin GPU 集成了新一代高带宽内存 HBM4，其接口宽度较 HBM3e 增加一倍。通过新内存控制器、与内存生态系统的深度协同设计及更紧密的计算-内存集成，Rubin GPU 的内存带宽几乎达到了 Blackwell 的三倍。

数量上，每颗 Rubin GPU HBM4，容量 288GB，带宽 22TB/s，不再只是 GPU 附近的“高速缓存”，而是整个系统吞吐的硬约束。单价上，HBM4 较 3e 显著提升，有望明显带动原厂的毛利率提升。

DRAM：Vera CPU 升级为 LPDDR5X，负责存放温热数据（KV 缓存）

Vera 将 SCF 与高达 1.5TB 的 LPDDR5X 内存子系统（Grace 内存为 480GB LPDDR5X）相结合，能在低功耗下提供高达 1.2TB/s 的带宽（Grace 带宽为 512GB/s）。应用上，可将 LPDDR5X 和 HBM4 视为单一的一致性内存池，减少数据移动开销，并支持 KV 缓存卸载和高效多模型执行等技术。

单价上，服务器端高端 DRAM 价格/盈利显著提升，消费端 DRAM 在被动挤压中承受成本压力和价格传导，形成“AI 优先” 的新一轮结构性涨价周期。

NAND：推出 BlueField-4 驱动的推理上下文内存存储平台，有望成为与 GPU 数量线性相关的通胀品

Vera Rubin 在机架内部署 BlueField-4 处理器，专门管理 KV Cache。BlueField-4 集成了 64 核 Grace CPU 和高带宽 LPDDR5X 内存，以及 ConnectX-9 网络，可提供高达 800 Gb/s 的超低延迟以太网或 InfiniBand 连接。

容量方面，在每个 GPU 原有 1TB 内存的基础上， BlueField-4 DPU 内存存储平台额外增加了 16TB 内存/每 GPU，对于NVL 72 机架则增加 1152TB 内存。单价上，受到云服务商和 AI 应用需求的增长，行业预计 2026 年全年的 NAND 价格两位数百分比上涨。AI/GPU/CPU芯片专题资料都已上传至“智能计算芯知识”星球。

更多芯片资料请参阅”《50+份智算行业深度梳理合集》“，“《105+份GPU芯片技术及白皮书合集》”，“《100+份AI芯片技术修炼合集》”，“《42+份半导体芯片图谱》”，“《70+份半导体研究框架》”等。

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。