一、HBM和他的衍生品:SPHBM4、cHBM、HMC
1.标准原生 HBM:
HBM (High Bandwidth Memory ) 高带宽内存,将很多个DRAM芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DRAM组合阵列。
HBM垂直堆叠内存芯片,4-8 个或者16个 DRAM Die通过3D TSV连接到堆栈底层的逻辑控制芯片Logic Die,这些DRAM堆栈通过Interposer中介层连接到 CPU 或 GPU。
JEDEC 通用规范,必须搭配 CoWoS 硅中介,2048bit 超宽并行,通用性最强,英伟达、AMD、通用 AI 芯片通用,这是行业主流路线。
2. SPHBM4(Standard Package HBM4,标准封装 HBM4)
JEDEC 官方标准化衍生 HBM4 规范(JESD330-4),核心 DRAM 堆叠、TSV 堆叠层数、单栈容量和原生 HBM4 完全一致,仅重构 Base 基底接口裸片。
原生 HBM4 是 2048bit 超宽并行 I/O,必须搭配 CoWoS 硅中介层;SPHBM4 引入 4:1 SerDes 串行转换,I/O 引脚压缩至 512 根,可直接贴装常规 FC-BGA 有机基板,抛弃昂贵硅中介,大幅降低先进封装产能依赖,峰值带宽依旧可达 2.0~2.8TB/s,定位中端 AI 推理、中小型 HPC 集群,兼顾带宽与成本。
3.cHBM(Custom HBM,定制化 HBM)
无统一 JEDEC 通用标准,属于芯片厂商与存储厂联合私有定制架构(SK 海力士、Marvell、美光主推)。底层改造 HBM 基底裸片,把内存控制器、UCIe 芯粒互联、PIM 存算单元、专用 D2D 直连电路集成在 Base Die 内,取消标准化并行 PHY;
采用无凸点混合键合直连 XPU,I/O 占用芯片面积减少 25%,接口功耗最高下降 70%,单封装可多容纳 33% 内存堆叠。仅适配头部云厂商自研 AI 大训练芯片,通用性差,研发流片周期长,主打极致算力能效。
4.HMC 和HBM 区别?
HMC(Hybrid Memory Cube,混合内存立方),2011 年美光、英特尔联合推出的早期 3D 堆叠内存架构,属于 HBM 同期竞争路线。
架构核心是每一层 DRAM 都配套独立 Vault 内存控制器,堆栈底层集成全局逻辑裸片,依靠高速串行 SerDes 对外互联,无超宽并行总线,不需要硅中介层,直接在 AB 有机载板封装。
立方体带宽上限、并行访问效率远低于 HBM,2018 年美光彻底放弃该路线,现已全面边缘化,仅少量军工、老旧 FPGA 设备零星使用。
结构差异
HMC和HBM结构相似,都是将DRAM堆叠在逻辑控制器之上,并且都采用了3D TSV技术,但是,HBM却多了一层Interposer,通过Interposer将DRAM堆栈和GPU紧密集成在一起。可以说有GPU的地方,必有HBM。
HBM通过GPU确定了自己的地位,AMD和英伟达先后都选择了HBM来作为自家显卡的内存,正赶上人工智能的大潮,不火都难。
然而,HMC没有 Interposer,无法和CPU/GPU进行紧密的集成,因而影响其功能密度, 而HBM却通过Interposer将内存堆栈和CPU/GPU进行紧密集成,有效地提升其功能密度,从而在竞争中胜出。
拥有数百家会员公司的JEDEC奉行一公司一票与三分之二多数的制度,从而降低了标准制定被任何一家或一批公司所把控的风险。也就是说,JEDEC标准的话语权并不由巨头所掌握,只有大家真正认可,才会最终被推行为正式标准。
2018年,人工智能开始兴起,高带宽成为了内存行业的重心,和GPU紧密绑定的HBM赢得了最大的市场,主推该标准的海力士与三星成了大赢家,HBM的大客户英伟达和AMD也因此而赚的盆满钵满。HMC早就没有了2011年刚推出时的风光,门可罗雀,美光也不再执迷不悟,于2018年8月宣布正式放弃HMC,转向HBM。
美光毕竟晚了一步,市场份额明显落后于两家韩厂,根据最新数据,SK 海力士占据全球 HBM 市场 50% 的份额,位居第一;三星紧随其后,占据 40% 的份额;而美光屈居第三,仅占据 10% 的市场份额。
二、三类衍生与标准 HBM 的定位与区分
标准属性 SPHBM4 是 JEDEC 公开通用标准,全存储厂、AI 芯片厂兼容;cHBM 是厂商私有定制方案,跨芯片不互通;HMC 早年小众联盟标准,早已废弃无迭代。
标准原生HBM:JEDEC 通用规范,必须搭配 CoWoS 硅中介,2048bit 超宽并行,通用性最强,英伟达、AMD、通用 AI 芯片通用,行业主流路线;
SPHBM4:HBM4 低成本衍生,基底增加 SerDes 串行转换,压缩引脚,可不用硅中介、普通有机基板封装,带宽小幅缩水,面向中端推理算力;
cHBM:厂商私有定制 HBM,重构 Base Die,集成存算 / 芯粒互联电路,混合键合直连 XPU,极致能效,但无统一标准、通用性极差;
HMC(淘汰竞品):全程串行小包架构,无超宽并行通道,多并发访问冲突严重,带宽、能效全面落后 HBM,早已退出 AI 赛道。
三、为什么最终只有 HBM 路线成为了主流,能大规模量产?
1. HMC 先天架构存在底层性能缺陷,无法适配 AI 大算力需求
AI 大模型训练、推理需要海量并行随机访存,HMC 采用串行数据包架构,多层内存共享单一串行通道,多计算并发时冲突严重、访存延迟暴涨;而 HBM 天然 2048bit 超宽并行总线,每个内存颗粒独立通道互不干扰,多 Tile 并行读写效率碾压 HMC。
同时 HMC 每一层都内置独立控制器,芯片面积、静态功耗翻倍,在 AI 高算力负载下能效远低于 HBM,2018 年 AI 产业爆发后,市场需求直接转向高并行 HBM,美光终止 HMC 全部研发。
2. HBM 构建完整通用产业生态,SPHBM4、cHBM 只是分层补充,而非替代
HBM 从 HBM1 到 HBM4 持续迭代,三星、SK 海力士、美光三大存储厂全部量产,英伟达、AMD、英特尔、国内全系列 AI 芯片统一兼容,形成统一 JEDEC 标准、成熟 TSV 堆叠、标准化 CoWoS 封装供应链,生态规模碾压其他路线:
SPHBM4 是HBM 低成本下沉分支,没有独立技术路线,只是改接口适配普通基板,带宽上限、最高堆叠层数依旧跟随 HBM 迭代,定位中端市场,无法取代高端训练卡原生 HBM;
cHBM 是HBM 高端定制变种,基于标准 HBM 堆叠 DRAM 做基底逻辑改造,底层存储单元、TSV 工艺完全复用 HBM 产业链,仅面向少量自研芯片巨头,不具备通用普及能力。 二者均依附 HBM 主体产业链,不属于独立竞争路线。
3. 标准与供应链壁垒决定 HBM 长期垄断算力内存赛道
HBM 早期就纳入 JEDEC 统一规范,三大存储厂同步扩产,CoWoS、混合键合、TSV、特种电子气体配套工艺持续成熟;反观 HMC 仅美光单方面主推,三星、SK 海力士没有量产动力,上下游封测、IP、EDA 工具配套缺失,客户选型成本极高。 而 AI 产业需求分层恰好被 HBM 体系完整覆盖:高端训练用原生 HBM,中端推理用 SPHBM,头部定制大芯片选用 cHBM,一条主路线分出高低搭配衍生方案,无需开辟全新存储架构,产业链投入、客户迁移成本最低,因此成为行业唯一主流路线。
4. 算力负载需求完美匹配 HBM 超宽并行设计
大模型 Transformer 算子存在海量矩阵乘、随机权重读取,极度依赖高并行、低延迟内存访问;DDR 带宽不足,HMC 串行有协议开销,只有 HBM 原生超多独立并行通道可以同时为数千计算单元供数,从底层架构匹配 AI 算力核心负载,这是最核心的底层技术壁垒,其他路线无法逾越。
感兴趣的欢迎加入星球获取完整内容学习,海量专业报告持续更新,扫码加入让芯科技圈成为您身边的半导体专家库!
175