从端侧AI芯片工程师的角度来看,面对带宽、能耗与成本三重挑战,引入SRAM存算一体架构(In-Memory Computing, IMC) 是应对当前大模型端侧部署瓶颈的核心解决方案之一。
一、为什么DRAM主存+传统计算架构难以满足端侧大模型部署?
1. 带宽瓶颈(Memory Wall)
DRAM(如LPDDR5/DDR5)的总线带宽在端侧芯片上极为有限(10–50 GB/s),远低于大模型推理所需的数据吞吐量。
以一个70亿参数的FP16模型为例,模型参数约占14GB,若每轮推理都需频繁从DRAM中调入权重,将带来巨大的访问延迟与能耗开销。
2. 功耗与能效不足
数据搬移的能耗远高于计算本身:
一次DRAM访问:约100~200 pJ/bit
一次SRAM访问:约1~10 pJ/bit
一次MAC操作:<1 pJ(单精度)
在Transformer这类大模型中,90%以上能耗和延迟都来源于内存访问。
3. 算力利用率低
传统Von Neumann架构中,计算单元(MAC阵列)等待内存数据的时间极长,导致NPU/AI Core利用率远低于理想值(通常 <50%)。
二、为什么选择SRAM + 存算一体架构?
1. 本质目标:减少数据搬移,提高能效比
将权重存入SRAM,并在SRAM中进行局部计算,可显著减少DRAM读写与片上总线流量,缓解带宽瓶颈。
SRAM的高带宽、低延迟特性,天然适合对参数读取频繁的模型结构(如注意力机制中的QKV矩阵计算)。
2. 实现方式:SRAM阵列+低位宽MAC计算
将部分权重映射到SRAM bitcell结构中,结合周边MAC逻辑实现矩阵向量乘法(MVM)计算。
采用低位宽计算(如INT8甚至Binary),进一步降低功耗。
典型结构如:Processing-in-SRAM,或者更激进的Analog IMC in SRAM(电压、电流作为计算媒介)。
三、SRAM存算一体的优势(工程技术层面)
| 技术点 | 描述 |
|---|---|
| 高带宽 | SRAM访问带宽远高于DRAM(数百GB/s vs 数十GB/s),支持大模型并行读写 |
| 低功耗 | 数据就地处理,极大降低能耗,尤其适合移动端持续AI推理 |
| 更高能效比 | Peak TOPS/W 显著优于传统架构;可达 50~100 TOPS/W(vs DRAM架构 <10) |
| 可预测的访问延迟 | SRAM访问延迟在ns级,避免DRAM访问的不确定性和多周期等待 |
| 可组合部署 | 支持小模型完全驻留于SRAM,或以cache方式支持大模型分块加载 |
四、工程实践挑战与解决思路
| 问题 | 解决路径 |
|---|---|
| SRAM面积成本高 | 引入低精度表示(INT4/INT2)、权重重用策略、模型剪枝 |
| 存算精度有限 | 混合精度架构设计(关键层使用高精度计算) |
| 片上SRAM容量受限 | Layer-by-layer加载机制 + 权重重组 |
| 工艺限制 | 利用先进制程(如台积电N4/N3)进行SRAM bitcell优化,提升集成度 |
五、典型芯片案例(支撑观点)
| 芯片 | 采用方案 | 特点 |
|---|---|---|
| Apple M系列/ANE | SRAM缓存+计算融合 | 权重驻留SRAM block,低延迟处理图像与语音任务 |
| Google Edge TPU | SRAM为主存+低位宽计算 | 支持INT8推理,能效比达 100+ TOPS/W |
| Ambiq Apollo4+ | 全SRAM架构 + uAI | 专为低功耗AI语音设计,功耗仅几十uW |
| Horizon旭日芯片 | SRAM-based NPU阵列 | 面向自动驾驶端侧感知,优化模型结构匹配SRAM存取模式 |
六、总结
SRAM存算一体架构是端侧AI芯片实现“大模型部署”的关键方向。它本质上通过“就地计算”打破传统架构的带宽墙,显著提高能效比和模型推理吞吐,降低功耗和散热压力,同时避免昂贵的DRAM访问带来的BOM成本上升,是应对端侧算力三大矛盾(带宽、功耗、成本)最可行的架构突破。
欢迎加入行业交流群,备注岗位+公司,请联系老虎说芯
1480