端侧AI为什么需要SRAM存算一体架构？

从端侧AI芯片工程师的角度来看，面对带宽、能耗与成本三重挑战，引入SRAM存算一体架构（In-Memory Computing, IMC） 是应对当前大模型端侧部署瓶颈的核心解决方案之一。

一、为什么DRAM主存+传统计算架构难以满足端侧大模型部署？

DRAM（如LPDDR5/DDR5）的总线带宽在端侧芯片上极为有限（10–50 GB/s），远低于大模型推理所需的数据吞吐量。

以一个70亿参数的FP16模型为例，模型参数约占14GB，若每轮推理都需频繁从DRAM中调入权重，将带来巨大的访问延迟与能耗开销。

数据搬移的能耗远高于计算本身：

一次DRAM访问：约100~200 pJ/bit

一次SRAM访问：约1~10 pJ/bit

一次MAC操作：<1 pJ（单精度）

在Transformer这类大模型中，90%以上能耗和延迟都来源于内存访问。

传统Von Neumann架构中，计算单元（MAC阵列）等待内存数据的时间极长，导致NPU/AI Core利用率远低于理想值（通常 <50%）。

将权重存入SRAM，并在SRAM中进行局部计算，可显著减少DRAM读写与片上总线流量，缓解带宽瓶颈。

SRAM的高带宽、低延迟特性，天然适合对参数读取频繁的模型结构（如注意力机制中的QKV矩阵计算）。

将部分权重映射到SRAM bitcell结构中，结合周边MAC逻辑实现矩阵向量乘法（MVM）计算。

采用低位宽计算（如INT8甚至Binary），进一步降低功耗。

典型结构如：Processing-in-SRAM，或者更激进的Analog IMC in SRAM（电压、电流作为计算媒介）。

技术点	描述
高带宽	SRAM访问带宽远高于DRAM（数百GB/s vs 数十GB/s），支持大模型并行读写
低功耗	数据就地处理，极大降低能耗，尤其适合移动端持续AI推理
更高能效比	Peak TOPS/W 显著优于传统架构；可达 50~100 TOPS/W（vs DRAM架构 <10）
可预测的访问延迟	SRAM访问延迟在ns级，避免DRAM访问的不确定性和多周期等待
可组合部署	支持小模型完全驻留于SRAM，或以cache方式支持大模型分块加载

问题	解决路径
SRAM面积成本高	引入低精度表示（INT4/INT2）、权重重用策略、模型剪枝
存算精度有限	混合精度架构设计（关键层使用高精度计算）
片上SRAM容量受限	Layer-by-layer加载机制 + 权重重组
工艺限制	利用先进制程（如台积电N4/N3）进行SRAM bitcell优化，提升集成度

芯片	采用方案	特点
Apple M系列/ANE	SRAM缓存+计算融合	权重驻留SRAM block，低延迟处理图像与语音任务
Google Edge TPU	SRAM为主存+低位宽计算	支持INT8推理，能效比达 100+ TOPS/W
Ambiq Apollo4+	全SRAM架构 + uAI	专为低功耗AI语音设计，功耗仅几十uW
Horizon旭日芯片	SRAM-based NPU阵列	面向自动驾驶端侧感知，优化模型结构匹配SRAM存取模式

SRAM存算一体架构是端侧AI芯片实现“大模型部署”的关键方向。它本质上通过“就地计算”打破传统架构的带宽墙，显著提高能效比和模型推理吞吐，降低功耗和散热压力，同时避免昂贵的DRAM访问带来的BOM成本上升，是应对端侧算力三大矛盾（带宽、功耗、成本）最可行的架构突破。