HBF是什么
2025年至今,无论是芯片行业还是投资圈有且只有两条并行的主线在加速发展:CPO光电共封装和HBM存储器,尤其是在近期HBM的产能被英伟达和AMD悉数锁定,NAND、DRAM、HBM的价格超乎想象的暴涨。表面上看似乎是供需关系的重构,实际上存储海面下早已暗流涌动。并且在2026年2月25日,SK海力士和Sandisk在加利福尼亚州的闪迪总部举行了“HBF 规范标准化联盟启动”活动,宣布了面向人工智能推理时代的下一代存储解决方案 HBF(高带宽闪存)的全球标准化战略。SK海力士在大会介绍:“SK海力士将与闪迪携手,通过将HBF打造为行业标准,来为人工智能生态系统的共同发展奠定基础;即日共同启动OCP(全球最大的开放计算中心项目)的工作流程,同时启动行业标准化工作。”
其实早在2025年2月,Sandisk就在投资者日上提出一个概念:让NAND和DRAM一样思考,存储也需要高带宽闪存(HBF High Bandwidth Flash),利用3D垂直堆叠封装结构来封装NAND闪存,将打造拥有媲美HBM带宽的同时,还保留NAND的掉电不丢失,从而打造介于HBM和SSD之间的全新存储阶层。想要理解这个产品定位的关键,首先要明白“访问速度”和“容量密度”这对矛盾共同体,NAND组成的SSD阵列想要容量大那总线传输速度就不会快,想要速度快则容量就不会大,尤其是消费级的SSD通常在内置高速缓存被塞满数据后传输速度陡降,相比大家都经历过吧。所以业界一直以来都是在提升容量上做文章。
HBM、HBF 和 GPU 中介层的连接方式(图源:Google)
而HBF则是借鉴了HBM和DRAM的经验,HBM比DRAM快但容量受限(单GPU HBM3E最大容量192GB,所以HBM4、HBM5都在加紧研发中)且单位GB的价格高昂。HBF则抓住这个空档,提供比HBM便宜且容量大得多的存储单元,同时还比SSD阵列的带宽快得多,刚好契合AI推理应用的应用场景,模型参数规模动辄数百GB甚至数TB,需要高带宽的并行读取,但不需要极致的纳秒级延迟。
制造工艺和封装
从物理结构上来说,HBF可以说是踩在HBM的肩膀上,与HBM高度一致。采用TSV(硅通孔)技术,将多层芯片(HBM Core)垂直堆叠,并在最底层布置一个逻辑芯片(HBF Base),负责与GPU/CPU/TPU等其他计算芯片进行通信。根据官方信息,其第一代产品设定为16层堆叠,单堆栈容量可达512GB,带宽设计目标为1.6TB/s,功耗和物理尺寸与HBM4对齐,可以直接插入现有AI加速器的封装布局中。
SK海力士和Sandisk的合作其实是技术互补的强强联合,SK海力士的MR-MUF工艺(Mass Reflow Molded Underfill,批量回流模制底部填充)负责堆叠工艺和封装,Sandisk的独门绝技BiCS 3D NAND和CBA(CMOS Direct Bonded to Array,CMOS直接键合阵列)技术则是HBF Core的制造核心技术。
BiCS 3D NAND和CBA:Sandisk的BiCS是其自研的3D NAND堆叠技术,2D时代NAND存储阵列和控制电路水平分布在同一个die上,控制信号通过底部和内部的布线层互联;3D NAND时代,BiCS则将NAND存储单元一层层的构建起来,使得单位芯片面积下存储空间大幅度提升,后利用CBA将CMOS逻辑电路和200、300层的NAND键合起来,逻辑芯片则可以采用先进制程节点,在提升电路性能的同时还能降低功耗,最后垂直键合还能缩短信号路径降低延迟。
MR-MUF:该项技术是SK海力士为HBM开发的先进封装技术,通过回流焊使3D堆叠DRAM芯片的所有微凸点(Cu pillar bump)完成电气互联,然后用EMC(环氧树脂模塑料,Epoxy Molding Compound)填充缝隙,从而实现结构加固和热传导优化,如今已经在12层堆叠的HBM3E和16层堆叠的HBM4成功量产。
但是HBF毕竟是基于NAND的,所以优势和短板有需要从NAND的物理特征来理解,容量密度是HBM完全不能追赶的,16层堆叠可以实现单颗HBF芯片拥有1024GB,是HBM的8-16倍。并且通过将HBF布置在GPU周围,减小PCIe总线链路延迟,获得比HBM慢(纳秒级 vs. 微秒级)但是容量大的多的存储空间。
那有人就提出,用HBF替代HBM如何?其实HBF的短板同样也很明显,HBF的耐久性有限,仅支持约 10 万次写入周期,并且其延迟还是过高,HBF的读取延迟通常在数十微秒级,与纳秒级的DRAM不在同一量级,这也决定了HBF不是通用内存,而是一个专门为读取密集型工作负载设计的补充性存储,尤其是LLM推理大模型中的kv键值用例需要巨大的缓存空间,缓存增强生成(CAG)就是这样一种工作模式,当LLM收到查询指令时,它会读取庞大的共享预计算KV缓存,执行计算,然后输出响应。上图中的Sub-System就是SK海力士的一个HBM和HBF共建方案,HBM、HBF和GPU通过硅中介层互联,内存访问通过地址解码器和路由器分为两条路径:一条访问 HBM,另一条访问 HBF;如此一来GPU可根据需求来决定访问HBM还是HBF。
行业格局和产能
HBF的潜在价值已经被行业同僚高度关注,今年2月的标准化大会更是官宣了这一新技术的未来发展方向。Sandisk负责NAND底层技术(BiCS、CBA)的迭代升级,SK海力士在3D封装垂直堆叠持续发力,而英伟达、AMD等深度参与标准化硬件接口和软件协议定义,共同推动技术落地。
HBF技术已经从设计概念阶段发展到小规模试生产阶段,预计在2026年底前推出工程验证样品,而适用于大规模生产的产品样品可能要到2027年下半年才能问世。技术路线图指出,Gen2产品目标为读取带宽超过2TB/s,Gen3进一步达到3.2TB/s,同时功耗降至Gen1的0.64倍。并且从产能扩张的时间节点来看,2026年存储制造商的产能扩展幅度较小,主要的产能增长将在2027年显现。SK海力士的 M15X制造基地HBM产能较为有限,因此扩产重点已转向M16工厂,甚至还会有新的工厂为HBF提供产能。
关键节点(图源:深芯盟)
另一位NAND的巨头三星尚未公布HBF的明确产品路线图,但大概率会遵循类似思路——用自身在NAND和HBM两端的制造能力将两者耦合。但是在抢占HBF定义的先机落后一步,不代表后面不行,以三星NAND、HBM通吃的强大实力,在兼容行业标准开发HBF也绝非难事。根据行业预测,以HBF为关键组件的整合型存储解决方案,市场需求预计在2030年前后迎来全面扩张,其市场规模有望在未来十年超越HBM。
结语
2026是HBF的元年,下半年即将有工程样品的应用实例,但是SSD和HBM的火热让大厂的产能持续吃紧,全年DRAM供需缺口预计在5%到8%的区间,HBM缺货则更加严重,但是一切都是需求为王,目前业界的焦点全都集中在HBF的应用表现上。而存储行业的竞争焦点也从“谁能堆叠更多层HBM”扩展到“谁能定义推理时代的存储层次标准”上。
文中插图为生成式AI生成
参考:
《SK Hynix proposes HBM and HBF hybrid for LLM inference》
《SK hynix and Sandisk Begin Global Standardization of Next-Generation Memory ‘HBF’》
《H(3): Hybrid Architecture Using High Bandwidth Memory and High Bandwidth Flash for Cost-Efficient LLM Inference》
215