一、存算一体技术路径:SRAM 与 DRAM 的战略选择
在大语言模型(LLM)推理的底层经济学中,“内存墙(Memory Wall)”已从单纯的性能瓶颈演变为决定芯片商业生死的红线。推理过程具有明显的阶段性:预填充(Prefill)阶段主要受算力限制,而解码(Decode)阶段则完全受制于内存带宽。
为了突破这一瓶颈,存算一体(CIM)技术通过消除数据在处理单元与存储器之间的移动成本,正在重塑数据吞吐量的战略制高点。
在存算一体和AI推理这一热门赛道上,有4家国际企业值得关注,分别是:Groq、Cerebras、SambaNova与d-Matrix。这四家AI推理芯片厂商在存储战略上的分歧,反映了其对未来推理市场的不同押注:
· Cerebras: 其晶圆级引擎 WSE-3 是这一赛道的极致掠夺者。通过在 46,225 mm² 的单片晶圆上集成 44GB 片上 SRAM,实现了惊人的 21 PB/s 内存带宽。其核心战略是将全量模型参数“锁”在硅片之上,彻底消除了片外互连的迟滞。
· d-Matrix: 采取了更具商业弹性的数字存算一体(DIMC)路径。Corsair 平台结合了片上 SRAM(单芯粒 256MB)与外部 LPDDR5。通过其 Aviator 软件平台,系统能在 150 TB/s 带宽的“性能模式”(SRAM 驱动)与兼顾容量的“容量模式”(LPDDR 驱动)之间灵活切换,旨在解决 SRAM 密度受限与模型规模扩张之间的矛盾。
· Groq: 尽管 LPU 架构同样重度依赖 SRAM,但其单芯片带宽上限仅在 100s TB/s 级别,与 Cerebras 的晶圆级吞吐量相比,在量级上存在代际差距。
· SambaNova: 其 SN30/40 架构在“推理战国时代”代表了架构多样性的一种。在万亿参数模型必须跨芯片部署的今天,它更多作为一种灵活的异构补充,试图在 VLIW 与晶圆级架构之外寻找生态位。
结论显而易见:内存技术的选择直接划定了延迟与吞吐量的基准。SRAM 方案虽拥有极致性能,但其容量上限决定了必须通过复杂的架构创新才能承载主流大语言模型。
二、核心芯片架构与解决“内存墙”的异构策略
芯片架构设计不仅关乎硅片的理论性能,更通过封装工艺与连接技术决定了系统的可扩展性与 TCO(总拥有成本)。
· Cerebras WSE-3:全定制晶圆级工艺的风险与护城河 Cerebras 选择了“全定制”策略,这不仅涵盖了 46,225 mm² 的巨型硅片,还涉及配套的定制封装、连接器与供电方案。针对晶圆级制造的良率顽疾,其采用了“软件定义冗余”方案:在约 100 万个核心中仅标记 90 万个为工作核心,通过硬件重映射绕过制造缺陷。然而,这种通过“缝合多个光刻掩模(Stitching multiple reticles)”实现的工艺极度依赖台积电(TSMC),且这种深度锁定的工艺流程极难向其他代工厂迁移。
· d-Matrix Corsair/PaveHawk:芯粒架构与标准化的平衡 d-Matrix 的 Corsair 架构则展现了更成熟的商业化思维。它通过 有机基板(Organic Substrate) 连接四个芯粒(Chiplet),避开了昂贵的 CoWoS 封装,直接降低了进入“主权 AI”市场的财务门槛。其 PCIe 卡采用了复杂的 24 层电路板设计,通过 DMX Bridge 桥接卡 可实现多卡间的全对全(All-to-all)互连。此外,其 Block Floating Point 数值格式有效压缩了内存占用。下一代 PaveHawk 计划通过 3D 存算一体(3DIMC) 技术,利用数千条 TSV 通道将 DRAM 直接堆叠在逻辑芯片下,以期在不牺牲带宽的前提下突破 SRAM 的容量红线。
· Groq LPU:被收购后的定位偏移 Groq 曾是低延迟推理的旗帜,但受限于单芯片 SRAM 物理容量,在大模型时代的扩展成本高昂。根据市场最新动态,其已由 NVIDIA 通过 人才收购(Acqui-hire) 方式实质性吸纳,这一转折信号反映了单一低延迟架构在面对系统级生态压制时的生存困境。
技术路线战略权衡对比:
· 晶圆级架构(Cerebras):
o权衡: 以极高的设计复杂度和代工厂锁定为代价,换取消除芯片间网络瓶颈的极致带宽。适合对延迟极度敏感的超级云推理集群。
· 芯粒/PCIe 架构(d-Matrix, Groq):
o权衡: 牺牲了部分片上带宽,但换取了与标准服务器基础设施(如 PCIe Gen5)的兼容性与更优的良率。通过标准化封装降低 TCO,更符合企业级私有化部署的需求。
三、AI 推理方案:性能、能效比与生态评估
在分析师眼中,理论峰值性能仅是“溢价能力”,而能效比与软件适配性才是“续航能力”。
· 推理性能与数值创新: Cerebras 的快速解码能力在实时交互场景中具有无可比拟的经济价值。相比之下,d-Matrix 引入了 Block Floating Point 这种特有数值格式,在解码阶段大幅减轻了内存负载,使得 2GB 的片上 SRAM 能够承载更高密度的计算逻辑。
· 能效比:经济性的终极体现。 数据shuffle是功耗的核心。d-Matrix 的 SRAM 访问能耗仅为 0.3 pJ/bit,而传统的 HBM 方案则高达 3 pJ/bit。这种 10 倍的能耗优势在超大规模数据中心运营中直接转化为显著的 TCO 下降。
· 软件生态的护城河: d-Matrix 的 Aviator 软件栈旨在简化模型映射过程,但所有初创厂商共同的挑战在于如何绕过 NVIDIA 苦心经营数载的 CUDA 生态。目前的共识是,这些新兴架构更多被作为特定高交互场景的“加速插件”,而非通用推理的全面替代品。
四、资本博弈、战略合作与市场扩张潜力
在半导体行业,硅片设计是基础,而财务契约与供应链控制则是其真正的扩张引擎。
· Cerebras 的对赌协议与财务依赖: Cerebras 2025 年收入的 86% 绑定在单一客户 G42 身上,这种极高的集中度预示着巨大的经营波动风险。尤为值得关注的是其与 OpenAI 的战略安排:OpenAI 并非直接采购硬件,而是签署了价值 200 亿美元的计算服务协议。为此,OpenAI 向 Cerebras 提供了 10 亿美元、年利率 6% 的运营资金贷款(实质上是预付服务费),并获得了 3300 万股近乎零成本($0.00001)的认股权证。这种深度的利益绑定表明 Cerebras 已转型为“代币工厂(Token Factory)”模式,承担了极重的资产负债表风险。
· d-Matrix 的稳健扩张: 完成 2.75 亿美元 C 轮融资(总融资 4.5 亿美元)后,d-Matrix 专注于硬件直销模式。其利用标准 PCIe 接口与有机基板封装,规避了 CoWoS 产能受限的问题,这使其能够快速切入企业级和“主权 AI”市场。
· Groq 的生存现状: Groq 曾试图转型 GroqCloud 销售代币以维持生计,但在 NVIDIA 的强势生态下,这种“硬件转服务”的路径被证明极其艰难,最终走向人才收购。
五、综合对比总结与未来挑战
存算一体架构的崛起标志着 AI 推理已从“通用算力竞赛”转向“内存效率竞赛”。
AI 推理芯片技术架构战略对比表
从当前商业落地潜力来看,d-Matrix 凭借其低 TCO、对现有标准服务器(PCIe/有机基板)的兼容性以及灵活的“性能/容量”双模切换,在企业级推理市场最具竞争力。Cerebras 虽然在极致性能上独步天下,但其深度依赖 OpenAI 的财务契约与台积电的特殊缝合工艺,使其更像是一个高度定制化的“昂贵实验室”,而非大规模普适的商业方案。
未来三年,行业需警惕以下风险点:
1.代工锁定风险:Cerebras 依赖的光罩缝合(reticle stitching)工艺在台积电之外缺乏备份产能。
2.SRAM 缩放停滞:物理定律限制了SRAM 密度的提升,这将迫使纯 SRAM 方案在成本上逐渐失去与 HBM 方案竞争的筹码。
3.算法演进失焦:MoE(混合专家模型)等稀疏化架构的演进,可能让现有的硬连线存算一体方案在灵活性上遭遇挑战。
参考来源:
1.深芯盟研报:Comparative Analysis of CIM Architectures in AI Chips
2.VIKRAM SEKAR:How d-Matrix's In-Memory Compute Tackles AI Inference Economics A deep look into the architecture from chip construction to rack-scale deployments, performance metrics, and end applications.
3.Morgan Stanley Research • 04 Mar 26 • "Tech Bytes: SRAM – A New AI Inference Paradigm"
205
