• 正文
  • 相关推荐
申请入驻 产业图谱

算力困局下,中国芯片靠“存算一体+RISC-V异构+3D近存” 杀出重围?

原创
09/16 10:06
3103
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

人工智能技术飞速发展的当下,大模型展现出巨大价值,AI计算在手机、PC等终端领域成为消费者核心需求,2024年全球AI PC和生成式AI智能手机出货量预计达2.95亿台。然而,产业发展背后,算力、功耗等多重挑战交织,传统技术路线难以为继。

在此背景下,三维存算一体(3D-CIM)技术凭借其在算力密度、能效及生态适配方面的突破,成为赋能 RISC-V AI 生态、破解产业困局的关键路径。

为了加速三维存算一体技术落地,近日由中国电子工业标准化技术协会RISC-V工作委员会主办,杭州市萧山钱江世纪城管理委员会、浙江省北大信息技术高等研究院、杭州微纳核芯电子科技有限公司承办的“RISC-V存算一体产业论坛暨应用组启动大会”在杭州萧山顺利召开。

图 | RISC-V存算一体应用组正式启动;来源:微纳核芯

“算力密度、能效、IO带宽、软硬件生态”全面突破

当前,AI 产业对算力的需求呈指数级增长,而传统技术路线的算力提升却难以跟上步伐,形成巨大算力缺口。IDC预测,未来五年全球算力规模将以超50%的速度增长,2025年整体规模将达 3300EFlops。以自动驾驶领域为例,L2级别自动驾驶需10TOPS算力,L3-4级别需100-500TOPS,L5级别则需4000 TOPS以上。而芯片算力仅呈线性增长,传统架构难以满足需求。

与此同时,功耗问题也日益严峻。随着芯片集成度提升和数据量爆炸式增长,到 2030 年数据量将达 612ZB,是 2020 年的 13 倍,信息通信技术相关能耗将占世界总电力能源的 21%。高能耗不仅带来散热难题,还大幅增加板级设计难度与数据中心运营成本,传统芯片面临能效瓶颈。

“数字域存算一体”或将成为算力密度突破口

关于传统冯氏架构的局限,这里展开说一下。我们知道,在经典的冯·诺依曼架构中,数据的存储与计算相互分离:CPU 作为处理单元,存储器则负责数据存储,二者通过数据总线进行通信。然而,由于处理器和存储器在内部结构、制造工艺和封装形式上的差异,它们的性能演进轨迹始终无法同步。自 1980 年代以来,处理器性能遵循摩尔定律快速提升,而存储器的访问速度却增长缓慢,导致两者之间的性能差距持续扩大。存储器响应速度远落后于 CPU 的数据处理需求,逐渐在处理器与存储单元之间形成了一道难以逾越的“存储墙”。这一瓶颈严重制约了芯片整体性能的进一步提升,成为计算架构演进中的关键挑战。

面对挑战,微纳核芯首席科学家叶乐指出:存算一体技术具有独特优势,或将成为突破算力与能效瓶颈的核心方向。

图 | 微纳核芯首席科学家叶乐;来源:微纳核芯

“张量计算在 AI 应用中占据绝对主导地位,不论是在云端 AI 大模型、边缘端自动驾驶,还是轻量级语音交互等场景中,张量计算占比均超 99.8%,而存算一体通过将存储与计算单元融合,可实现原位高效处理张量计算,大幅缩短数据路径,有效缓解带宽瓶颈,同时显著提升算力密度与计算能效。” 叶乐解释道。

落实到具体的存储介质选择上,叶乐认为SRAM的优势更为突出。与 MRAM、PCM、RRAM 等新型非易失性存储器相比,SRAM 具有与逻辑工艺兼容、操作电压低、读写速度快(可达 ~1ns)以及无耐久性限制等优势。尽管新型存储器在存储密度方面表现突出,但仍面临 CMOS 兼容性差、可计算性有限等问题,在实际应用中往往仍需依赖 SRAM 作为缓存以存储中间结果。此外,新型存储器在耐久性和制造良率等方面也存在诸多挑战。因此,在当前发展阶段,SRAM 仍然是实现存算一体技术的优选存储介质。

为了证明SRAM 存算一体的优势,叶乐展示了数字域存算一体案例的多次流片验证结果:在 22nm 工艺下,其算力密度较传统架构提升 4 倍,可达到传统 NPU/GPU 在 7nm 工艺下的算力密度;计算能效较传统路线提升 5-10 倍;基于全国产供应链,成本较 7nm 芯片降低 4 倍。

同时,SRAM 存算一体 IP 支持 INT4 至 FP32 等主流数据格式,可高效加速 Transformer、CNN、RNN 等 AI 模型的 Attn、Conv、FC 等核心算子,可满足不同场景计算需求,具备完备的计算功能与数据格式适配能力。

RISC-V 与存算一体深度融合,可弥补“标量、向量”计算短板

SRAM 存算一体虽在算力与能效上表现优异,但在产业推广中面临 “计算完备性” 与 “软件生态” 难题。

叶乐坦诚道:“SRAM 存算一体的高算力密度设计其实是牺牲了部分硬件灵活性,缺乏计算完备性,难以完成标量与向量计算;同时,缺乏标准指令集与工具链,导致 AI 硬件缺乏向后兼容能力,指令碎片化、软件开发成本高、应用可移植性差。”

而RISC-V 与存算一体的异构融合,为解决上述问题提供了关键方案。具体来讲,RISC-V 凭借其开源特性与灵活的指令集架构,可弥补存算一体的计算短板 ——SRAM 存算一体高效执行张量计算,RISC-V 则通过标量、向量指令集实现标量与向量计算,二者协同实现计算完备性。

同时,基于 RISC-V 开源生态,可构建统一的软件体系:推出存算一体扩展指令集,以抽象算子库为接口,实现与上层 TensorFlow、PyTorch 等 AI 框架及 ONNX 接口的协同;借助 RISC-V 编译工具链,开发扩展编译器,形成 “AI 框架 - 抽象算子库 - 扩展指令集 - 硬件加速子系统” 的全栈软件栈。

据悉,目前在RISC-V工委会的带领下,已完成 RISC-V 存算一体全栈软件栈初版设计,涵盖仿真器、指令集、算子库、编译器等模块,突破英伟达 CUDA 生态垄断,为软硬件协同提供支撑。

此外,为进一步突破数据带宽瓶颈,实现全链条自主可控,叶乐认为“三维存算一体(3D-CIM)架构”是最终目标。该架构将融合 “SRAM 存算一体、RISC-V + 存算异构架构、3D 近存架构” 三大创新路径,从硬件到生态形成完整解决方案。

具体来讲就是,3D 堆叠技术通过将大容量存储器与计算芯粒垂直集成,大幅提升数据搬运带宽,降低数据搬运功耗,解决权重与 KV Cache 的大容量存储问题;SRAM 存算一体持续提升算力密度与能效,节约芯片面积与成本;RISC-V 异构架构保障计算完备性,构建开源自主软件生态。三者协同,实现 “存储 - 计算 - 带宽 - 生态” 的全方位优化,形成 “三维近存计算 + 存算一体” 的高效架构,为 AI 场景提供算力、能效、带宽的综合解决方案。

写在最后

三维存算一体技术拥有清晰的应用落地路径与广阔前景。在应用端,先期可切入端侧大模型市场,为 AI 手机、AI PC 提供高算力、低功耗的芯片支撑;中期可拓展至云端大模型领域,通过 “3D-CIM 芯片 + 国产 CPU/GPU” 组合,实现云端 AI 算力自主可控;远期可赋能具身智能(AI 机器人)等新型场景,满足复杂环境下的实时计算需求。

产业合作方面,以主流厂商微纳核芯为例,已与多家手机、PC、服务器龙头企业开展应用端合作,在供给端联合国产工艺龙头、RISC-V 生态伙伴、国内存储器龙头,构建从芯片设计、制造到应用的全产业链协同体系,推动技术产业化落地。

从行业意义来看,三维存算一体技术基于全国产供应链,可为 AI 大模型、自动驾驶等关键场景提供自主可控的芯片解决方案。更重要的是,其以 RISC-V 开源生态为基础,打破传统封闭生态垄断,为全球 AI 产业提供 “后摩尔时代” 的算力 scaling 新路径,有望开启算力芯片下一代 Scaling Law,推动 AI 技术向更高效、更普惠的方向发展,为 RISC-V AI 生态注入强大动能,助力全球 AI 产业突破技术壁垒,实现高质量发展。

来源: 与非网,作者: 夏珍,原文链接: https://www.eefocus.com/article/1892236.html

相关推荐