国产存算一体AI芯片发展正当时

架构就像是芯片的基因，它直接决定了芯片的提升空间。这也是后摩尔定律时代，“新物种”芯片崛起的根本原因。

大量的数据、有效的算法以及足够的算力结合，推动了人工智能的高速发展。但我们也不得不看清一个严峻的现实：数据量越来越大，数据类型越来越多；各种算法日新月异，高速发展；与此同时，算力的提升却显得赶不上趟，甚至落后于数据和算法的需求，特别是在计算场景对高带宽、低功耗需求持续走高的趋势下。此外，加之芯片工艺趋近极限，可大规模商用的新型材料暂时还没实现，在芯片架构上的探索成为提高芯片性能最重要的手段之一。

AI芯片的破“墙”运动

在传统的冯·诺依曼架构中，由于计算与存储分离，计算过程中需要不断通过总线交换数据，将数据从内存读进CPU，计算完成后再写回存储。而随着深度学习的发展和应用，计算单元和存储单元之间的数据移动尤为频繁，数据搬运慢、搬运能耗大等问题成为了算力效能进一步提升的关键瓶颈。从处理单元外的存储器提取数据，搬运时间往往是运算时间的成百上千倍，公开数据显示，整个过程的无用能耗约在60%-90%之间。

特别是大算力场景下，存算分离带来的计算带宽问题成为主要瓶颈。以智能驾驶等边缘端高并发计算场景来看，它们除了对算力需求高之外，对芯片的功耗和散热也有很高的要求。而常规架构的芯片设计中，内存系统的性能提升速度已经大幅落后于处理器的性能提升速度，有限的内存带宽无法保证数据高速传输，无法满足高级别的计算需求。

行业面临的挑战很突出，一边是需要逾越的“算力高墙”，一边则是固守多年的“存储墙”。而只有创新架构，打破存储墙、降低成本、提升计算效率，才能让芯片算力更进一步，推进数据计算应用的发展。

在这一趋势下，将内存和计算更紧密地结合在一起的存算一体方案，正获得越来越多的关注，并逐步由研究走入商用场景中。

以数据为核心的AI芯片路线

对于大算力的AI芯片来说，架构设计已经越来越明显地转向了“数据为核心”的思路，不过对于不同技术路线的企业来说，有不同的实现方式。

HBM是目前超大算力芯片常用的方案之一，它能够暂时缓解“存储墙”的困扰，但实现成本较高。以英伟达在AI云端市场大规模落地的GPU来看，其最先进的Hopper架构一方面通过HBM来解决内存墙，另一方面新增了张量存储加速器 (TMA) 。整个Hopper架构GPU由8个图形处理集群（GPC)“拼接”组成，核心两侧是HBM3显存，拥有5120 Bit的位宽。此外，TMA提高了张量核心与全局存储和共享存储的数据交换效率。

这一方式也需要先进的工艺和封装技术，基于Hopper的最新一代GPU H100，就采用了台积电4nm工艺、CoWoS 2.5D封装技术，在设计能力、成本投入方面都有很高门槛。

再看三星发布的HBM2-PIM技术和近内存计算方案AxDIMM。HBM2-PIM实际上是一块带有计算功能且在AI应用中能提升系统性能的内存芯片，AxDIMM则实现了在每个DRAM芯片旁边都集成了一块单独的加速器逻辑并可以同时访问，增加了访存带宽。这样的设计思路也非常符合三星的业务规划，用以确保其存储器在AI时代继续保持先进性。

英特尔的神经拟态计算芯片Loihi也采用了存算一体的架构，使之更加容易扩展。Loihi芯片的裸片包含128个小核，每个核里面模拟1024个神经元的计算结构，每个神经元又有1000个突触连接，这意味着768个芯片连接起来可以构建接近1亿神经元的系统。

存算一体，方兴未艾

近年来，国内企业对于存算一体芯片的投入进入高峰期。

据<与非网>分析，国产存算一体芯片主要呈现以下趋势：进入2017年以来，国产存算一体芯片企业开始“扎堆”入场，12家企业中有10家成立于2017年之后；第二，从技术路线来看，以近存计算和存内计算两种路线为主，其中，又可以细分为模拟存内计算、全数字存内计算、类脑存内计算、类脑近存计算等；第三，存储器类型相对多样化，包括闪存、SRAM、RRAM、ReRAM等;第四，国产存算一体芯片正在向大算力的方向迈进，以2020年成立的亿铸科技和后摩智能为代表。

国产存算一体芯片概况，<与非网>不完全整理

技术路线的选择直接决定了产品的应用方向。近存计算的基本做法是将数据存储尽量靠近计算单元，降低数据搬运的延迟和功耗，其架构主要包括多级缓存架构和高密度片上存储；而存内计算是对内部存储中添加计算逻辑，直接在内部存储执行数据计算，这种架构数据传输路径最短，同时能满足大模型的计算精度要求。

在存储器的选择方面，发展较为成熟的有NOR Flash、SRAM、DRAM等。FLASH属于非易失性存储介质，具有低成本、高可靠性优势，但工艺制程有瓶颈；SRAM在速度方面有优势，但容量密度小，价格高，在大阵列运算的同时保证运算精度具有挑战；DRAM成本低、容量大，但是速度慢，且需要电力不断刷新。存算一体新型存储器有PCRAM、MRAM、ReRAM等，其中ReRAM在神经网络计算中具有优势，是目前发展较快的新型存储器。

此外，还有模拟存算和全数字存算的区分。究竟是数字好还是模拟好？前几年，业界认为模拟计算在速度、能耗、工艺节点方面有优势；近些年，又提出模拟路线需要进行模数转换，精度容易受信噪比影响达到上限，而数字计算具有高精度、高环境容忍度的优点。不过，不论是模拟还是数字，都需要企业基于已有技术能力，面向应用场景、可选择工艺等方面进行权衡选择。

谁将胜出？

面向国际巨头在AI算力市场、存储技术占据领先地位的当下，以电路/架构设计出身的存算一体初创公司，将竞争核心着眼于存算一体SoC芯片设计以及相应的IP核能力，是一种较为务实的做法。并且，差异化的技术路线演进，长远看也有利于产业的良性发展。

目前看来，整个行业对存算一体芯片的研究依旧处于探索阶段，在工艺成熟度、典型应用、生态系统等方面亟待进一步成熟，谈论哪种架构胜出为时尚早。并且，存算一体芯片发展本身就涉及庞杂的产业链环节，需要从存储器到AI芯片再到编译器和算法的一系列技术能力，也离不开强大的开发能力和生态建设能力。

写在最后

多年从事芯片开发的工程师，到后来可能发现，很多时候算力的提升并不在于计算单元本身，而是传输带宽的制约。对于这一多年来就存在的瓶颈，存算一体无疑是合理的路径，也因深度学习的兴盛而达到了合适的发展节点。

目前看来，第一批实现量产落地的存算一体芯片，以小算力、端侧应用居多，面向大算力数据中心、智能驾驶的芯片，根据主要玩家的市场规划，有望在未来一两年内实现量产。

在人工智能本身仍在探寻应用场景的前提下，存算一体化的落地问题，仍需要紧密结合具体应用场景具体分析。存算一体芯片产业真正走向成熟还需要持续地积累，实现小算力场景持续渗透，针对高价值场景做极致优化；大算力场景规模量产，最终走向普遍应用。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
B3B-PH-K-S(LF)(SN)	1	JST Manufacturing	Board Connector, 3 Contact(s), 1 Row(s), Male, Straight, Solder Terminal, ROHS COMPLIANT	ECAD模型下载ECAD模型	$0.13	查看
15317363	1	Delphi Automotive LLP	Automotive Connectors SECONDARY LOCK MEDIUM GRAY		暂无数据	查看
MBR0540-TP	1	Micro Commercial Components	Rectifier Diode, Schottky, 1 Element, 0.5A, 40V V(RRM), Silicon, ROHS COMPLIANT, PLASTIC PACKAGE-2		$0.2	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

B3B-PH-K-S(LF)(SN)

JST Manufacturing

Board Connector, 3 Contact(s), 1 Row(s), Male, Straight, Solder Terminal, ROHS COMPLIANT

$0.13

查看

15317363

Delphi Automotive LLP

Automotive Connectors SECONDARY LOCK MEDIUM GRAY

暂无数据

查看

MBR0540-TP

Micro Commercial Components

Rectifier Diode, Schottky, 1 Element, 0.5A, 40V V(RRM), Silicon, ROHS COMPLIANT, PLASTIC PACKAGE-2

$0.2

查看