• 正文
  • 相关推荐
申请入驻 产业图谱

端侧AI为什么需要SRAM存算一体架构?

07/30 08:50
1480
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

端侧AI芯片工程师的角度来看,面对带宽、能耗与成本三重挑战,引入SRAM存算一体架构(In-Memory Computing, IMC) 是应对当前大模型端侧部署瓶颈的核心解决方案之一。

一、为什么DRAM主存+传统计算架构难以满足端侧大模型部署?

1. 带宽瓶颈(Memory Wall)

DRAM(如LPDDR5/DDR5)的总线带宽在端侧芯片上极为有限(10–50 GB/s),远低于大模型推理所需的数据吞吐量。

以一个70亿参数的FP16模型为例,模型参数约占14GB,若每轮推理都需频繁从DRAM中调入权重,将带来巨大的访问延迟与能耗开销

2. 功耗与能效不足

数据搬移的能耗远高于计算本身:

一次DRAM访问:约100~200 pJ/bit

一次SRAM访问:约1~10 pJ/bit

一次MAC操作:<1 pJ(单精度)

在Transformer这类大模型中,90%以上能耗和延迟都来源于内存访问。

3. 算力利用率低

传统Von Neumann架构中,计算单元(MAC阵列)等待内存数据的时间极长,导致NPU/AI Core利用率远低于理想值(通常 <50%)

二、为什么选择SRAM + 存算一体架构?

1. 本质目标:减少数据搬移,提高能效比

将权重存入SRAM,并在SRAM中进行局部计算,可显著减少DRAM读写与片上总线流量,缓解带宽瓶颈。

SRAM的高带宽、低延迟特性,天然适合对参数读取频繁的模型结构(如注意力机制中的QKV矩阵计算)。

2. 实现方式:SRAM阵列+低位宽MAC计算

将部分权重映射到SRAM bitcell结构中,结合周边MAC逻辑实现矩阵向量乘法(MVM)计算。

采用低位宽计算(如INT8甚至Binary),进一步降低功耗

典型结构如:Processing-in-SRAM,或者更激进的Analog IMC in SRAM(电压、电流作为计算媒介)。


三、SRAM存算一体的优势(工程技术层面)

技术点 描述
高带宽 SRAM访问带宽远高于DRAM(数百GB/s vs 数十GB/s),支持大模型并行读写
低功耗 数据就地处理,极大降低能耗,尤其适合移动端持续AI推理
更高能效比 Peak TOPS/W 显著优于传统架构;可达 50~100 TOPS/W(vs DRAM架构 <10)
可预测的访问延迟 SRAM访问延迟在ns级,避免DRAM访问的不确定性和多周期等待
可组合部署 支持小模型完全驻留于SRAM,或以cache方式支持大模型分块加载

四、工程实践挑战与解决思路

问题 解决路径
SRAM面积成本高 引入低精度表示(INT4/INT2)、权重重用策略、模型剪枝
存算精度有限 混合精度架构设计(关键层使用高精度计算)
片上SRAM容量受限 Layer-by-layer加载机制 + 权重重组
工艺限制 利用先进制程(如台积电N4/N3)进行SRAM bitcell优化,提升集成度

五、典型芯片案例(支撑观点)

芯片 采用方案 特点
Apple M系列/ANE SRAM缓存+计算融合 权重驻留SRAM block,低延迟处理图像与语音任务
Google Edge TPU SRAM为主存+低位宽计算 支持INT8推理,能效比达 100+ TOPS/W
Ambiq Apollo4+ 全SRAM架构 + uAI 专为低功耗AI语音设计,功耗仅几十uW
Horizon旭日芯片 SRAM-based NPU阵列 面向自动驾驶端侧感知,优化模型结构匹配SRAM存取模式

六、总结

SRAM存算一体架构是端侧AI芯片实现“大模型部署”的关键方向。它本质上通过“就地计算”打破传统架构的带宽墙,显著提高能效比和模型推理吞吐,降低功耗和散热压力,同时避免昂贵的DRAM访问带来的BOM成本上升,是应对端侧算力三大矛盾(带宽、功耗、成本)最可行的架构突破。

欢迎加入行业交流群,备注岗位+公司,请联系老虎说芯

相关推荐