扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

大模型推理芯片架构全揭秘:五大门派华山论剑,谁才是真正的王者?

04/03 09:50
180
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

1. 开篇:大模型时代,芯片成了新战场

人工智能这几年进化太快了。

大语言模型(LLM)从2018年不到10亿参数,干到了2025年的5万亿+参数

你没看错,单位是万亿

这种指数级增长带来了前所未有的计算挑战,尤其是推理部署场景——

延迟、吞吐量、成本效率,这三座大山压得人喘不过气来。

训练可以在专门的超算中心集中搞,但推理部署得考虑各种场景:

从边缘设备到数据中心,从实时对话到离线批处理,需求千差万别。

推理芯片的需求这催生了一个多样化的硬件生态系统,各家都在往不同的方向使劲。

也就造就了争奇斗艳的各种芯片架构。

2. 背景:模型越来越大,芯片怎么跟?

2.1 模型尺寸与计算需求的进化

先看看这组让人头皮发麻的数据:

一个700亿参数的模型,FP16精度下需要约140GB内存

1万亿参数的模型,直接干到约2TB内存。

这远远超过了单个加速器的内存容量,所以分布式推理技术成了必选项。

2.2 训练和推理,根本不是一回事

很多兄弟以为训练和推理差不多,其实差别大了去了:

这还没完——训练和推理完全是两码事:

特性维度 训练(Training) 推理(Inference)
精度 Precision 通常要求 FP16/BF16 INT8/INT4 通常足够
批量大小 Batch Size 大批次(上千规模) 小批次(1-128)
内存访问 Memory Access 权重更新主导 权重读取主导
计算模式 Computation Pattern 规则、可预测 多变(MoE 架构尤为突出)
优化目标 Optimization Target 收敛耗时(Time-to-convergence) 延迟、吞吐量、成本
部署规模 Deployment Scale 集中式(超级计算机 分布式(从边缘到数据中心)

人话翻译:

训练像工厂量产,追求效率最大化;

推理像餐厅出餐,追求单桌体验——latency(延迟)和throughput(吞吐量)得分开看。

这种多样性催生了各种专门的推理AI加速家芯片。

3. 五大架构PK:谁能问鼎华山之巅?

五大门派,各有各的绝活。

3.1 GPU派:NVIDIA Blackwell & AMD MI300X

江湖地位:中神通,现在的老大

这派用SIMD(单指令多数据)或SIMT(单指令多线程)执行模型,特点是可编程核心多,还有专门的Tensor Core干矩阵运算。

NVIDIA Blackwell GB200 specs:

双GPU芯片设计,每片66个流式多处理器

第5代Tensor Core,FP16精度下4,500 TFLOPS

192GB HBM3e显存,带宽8 TB/s

NVLink 5.0互联,芯片间1.8 TB/s双向通信

AMD MI300X specs:

8个GPU计算chiplet(XCD),台积电5nm工艺

256MB共享L3 Infinity Cache

192GB HBM3显存,带宽5.3 TB/s

多chiplet设计,通过Infinity Fabric互联

优势:

软件生态成熟,CUDA垄断了AI开发

灵活性高,啥活都能干

矩阵运算密度高

多GPU扩展能力强

劣势:

单卡内存有限

小批次推理延迟偏高

太贵了!一张卡好几万美元

人话:

就像瑞士军刀,啥活都能干,但单项都不是最顶。

3.2 脉动阵列派:Google TPU v7 (Ironwood)

江湖地位:南帝,大厂造芯的佼佼者

TPU是Google家亲儿子,走脉动阵列(Systolic Array)路线。

啥是脉动阵列?

简单说就是数据像心跳一样,在计算单元网格里同步流动。适合密集矩阵乘法——正好是大模型的核心操作。

TPU v7 specs:

192GB HBM3显存,带宽7.37 TB/s

专门的Sparse Core单元,针对MoE(混合专家模型)优化

芯片互联:1.2 TB/s,最多4096芯片组网(3D torus拓扑)

台积电5nm工艺

优势:

矩阵运算效率极高

性能可预测

MoE模型友好(Sparse Core专门干这个)

劣势:

灵活性差,非矩阵任务干不了

编程模型复杂

人话:

就像专业厨房设备,炒菜一绝,但你要做烘焙就抓瞎。

3.3 多核SRAM派:Graphcore IPU & Meta MTIA v2

江湖地位:北丐,应用为王。

这派不走寻常路, prioritizes片上内存和海量并行

Graphcore IPU (GC200):

1,472个独立tile

900MB片上SRAM,内部带宽45 TB/s

每tile自带608KB内存

超低延迟的小批次处理

Meta MTIA v2:

64个处理单元,8×8网格

RISC-V控制核心

256MB片上SRAM(L2)共享

128GB LPDDR5 DRAM,带宽205 GB/s

优势:

小批次延迟极低

细粒度并行,适合不规则workload

内部内存带宽爆炸(45 TB/s)

劣势:

单卡内存小

超大模型得切得很碎

人话:就像赛车,起步加速无敌,但油箱太小跑不了长途。

3.4 晶圆级派:Cerebras WSE-3

江湖地位:西毒,大巧不工,逆练摩尔定律

这个最离谱,直接把一整块晶圆当芯片用

普通芯片是把晶圆切成几百片,每片单独封装

Cerebras:不切了,整片就是一个芯片。

Cerebras WSE-3 specs:

90万个AI核心,2D mesh网络排列

44GB分布式SRAM,带宽220+ TB/s

整片晶圆面积:46,225 mm²

SwarmX互联fabric,支持多晶圆扩展

优势:

片上并行度炸裂

没有片间通信瓶颈

单一编程模型,扩展简单

劣势:

制造复杂度极高

散热地狱难度

良品率挑战

成本吓人

人话:

就像把整个工厂塞进一个车间,效率拉满,但建造成本吓人。

3.5 确定性流水线派:Groq LPU

江湖地位:东邪,自成一脉。

这派走完全不同的路线——追求完全可预测的性能

不搞通用可编程,而是在编译时静态调度,实现固定流水线。

Groq LPU v1 specs:

单一大核心设计

确定性流水线架构

230MB片上SRAM,带宽80 TB/s

亚毫秒级延迟

188 TFLOPS FP16,750 TOPS INT8

优势:

延迟完全确定(每次一样)

对固定workload执行效率极高

超低延迟

劣势:

灵活性归零

模型架构一变就得重新搞

超大模型扩展挑战

人话:

就像F1赛车,只能在赛道上飞,上街连减速带都过不了。

3.6 内存层次结构对比

内存系统对LLM推理至关重要,因为模型经常超过片上内存容量。

AI芯片不同的三种内存策略:

1. HBM-focused(高带宽内存为主):

NVIDIA Blackwell、Google TPU v7、AMD MI300X

大容量HBM(192GB)

高带宽(5-8 TB/s)

多层次缓存

2. 片上内存为主:

Cerebras WSE-3、Graphcore IPU

大容量分布式SRAM(44GB / 900MB)

极高内部带宽(220+ TB/s / 45 TB/s)

3. 混合方案:

Meta MTIA v2、AWS Inferentia2

片上SRAM + 外部内存(LPDDR5/HBM2e)

平衡成本和性能

这种多样性反映了不同的优化目标和扩展哲学。

4.Workload-specific性能分析

光比参数没意义,得看实际workload表现。

4.1 评估方法

根据论文《AI Accelerators for Large Language Model Inference:  Architecture Analysis and Scaling  Strategies  》中定义了六种运行场景

1. 低延迟单流:单查询,最小化首token时间(TTFT)

2. 中等批次服务:多请求并发,平衡响应和效率

3. 高吞吐批次并行处理大量请求,最大化TPS

4. 长上下文处理:高效处理32K+ token的上下文

5. 多模型服务:同一硬件上并发 hosting 多个模型

6. MoE模型:高效执行稀疏MoE架构

4.2 核心发现

实测结果揭示了几个关键洞察:

1. 没有必杀的杀招:每种架构在特定场景 excels,但在其他场景拉胯,性能差距高达3.7倍。

2. 架构-workload对齐:性能差异跟架构设计理念高度吻合。

3. 软件栈影响巨大:同样硬件,不同软件版本性能差距可达40%。

4. 能效差异惊人:最高和最低能效的架构差距18.5倍。

4.3 交互式Workload性能

对于用户实时对话场景(比如ChatGPT),关键指标是首token时间(TTFT)和生成速度。

关键点总结:

专用架构(Groq LPU、Graphcore IPU)在小批次延迟上优势明显

Cerebras WSE-3吞吐量最高,但功耗也高

Groq LPU能效比是其他架构的2-4倍

4.4 批次处理Workload性能

对于离线批处理(比如文档分析),关键指标是吞吐量和延迟稳定性。

关键点总结:

Cerebras WSE-3在大批次吞吐上无敌

Groq LPU延迟稳定性最好(CoV=0.02),但吞吐量受限

GPU和TPU平衡了吞吐和扩展性

4.5 跨架构总结

1. 小批次性能跟内存带宽强相关(r=0.88),大批次更看重算力

2. 延迟-吞吐量 tradeoff 依然存在:没有架构能同时 optimize 两者。

3. 软件优化跟硬件同样重要:差距可达40%。

4. 能效差异巨大:不同workload下,最优架构可能完全不同。tion IV-E

5. 万亿参数模型的四种扩展策略

模型大到单机装不下,就得分布式推理。对比了四种主流策略。

5.1 张量并行(Tensor Parallelism)

把单个网络操作(比如矩阵乘法)切分到多个设备上。

特点:

每层内的张量操作被分区

需要高带宽、低延迟互联

通过AllReduce操作合并结果

适合单层太大的模型

通信模式:AllReduce

NVIDIA Blackwell、Google TPU v7、AMD MI300X都通过高速互联(NVLink 5.0、ICI、Infinity Fabric)提供 excellent 支持。

5.2 流水线并行(Pipeline Parallelism)

把模型层分组,每个设备处理一部分,激活值像流水线一样传递。

特点:

每层分配到不同设备

激活值在相邻阶段间传递

需要微批次处理

适合深层模型

通信模式:点对点激活传输

NVIDIA Blackwell、Google TPU v7、Intel Gaudi 3、Groq LPU优化较好。AMD MI300X和Cerebras WSE-3支持有限。

问题:流水线气泡

小批次时硬件利用率会降低,需要交错调度和异步流水线来缓解。

5.3 专家并行(Expert Parallelism / MoE)

专门用于混合专家模型(Mixture-of-Experts)。把不同的专家网络分布到不同设备上,每个token只激活部分专家。

特点:

专家模块分布到不同设备

token根据学习的路由函数分配到专家

需要硬件支持稀疏计算

参数规模可达5-10倍,但计算和延迟增加有限

通信模式:All-to-all(token路由)

核心发现:

专家并行提供了8.4倍的参数-计算比,但引入了2.1倍的延迟方差

人话翻译:

像医院分科室,各看各的病,但转诊需要时间。

要省钱?

选专家并行,但得接受偶尔卡顿。

要体验?

选张量并行,贵点就贵点。

5.4 内存卸载技术(Memory Offloading)

CPU内存或存储来扩展有效内存容量,动态地在加速器和主机内存之间交换权重和激活值。

特点:

动态分页管理

预测性预取算法

双向传输 between 加速器和主机内存

适合研究环境、成本敏感部署

NVIDIA Blackwell、Cerebras WSE-3、AMD MI300X通过vLLM、MemoryX、Infinity Cache扩展提供良好支持。

问题: 会引入额外延迟,但通过预取和缓存策略可以缓解。

5.5 混合扩展策略

实践中,这些策略经常组合使用:

1. 3D并行:

结合张量、流水线和数据并行,大规模集群扩展。

2. MoE + 张量并行:

专家分布到不同设备,单个专家内部再用张量并行。

3. 流水线 + 内存卸载:

活跃层用流水线并行,不活跃层保持在主机内存。

最优组合取决于模型架构、硬件特性和部署约束。

工具如NVIDIA NeMo Megatron、Google MaxText、Cerebras Weight Streaming可以自动确定高效的并行策略。

6. 未来架构趋势

未来AI加速器的关键趋势。

6.1 异构内存系统

未来加速器将采用异构内存,结合高带宽但容量有限的内存(如HBM)和更大、稍慢的内存层。

CXL(Compute Express Link)标准正在成为关键技术,支持加速器HBM之外的相干内存扩展。

核心思路:

昂贵HBM只存关键数据

CXL-attached DRAM存访问频率较低的参数

NVMe存储存最低优先级参数

预期效果:

支持比当前HBM-only方案大5-10倍的模型

典型推理workload性能下降仅15-30%

6.2 硬件加速MoE支持

随着MoE模型越来越普遍,未来加速器将整合专门的硬件支持:

专门的专家路由硬件

动态负载均衡

稀疏计算优化

专门的MoE优化计算块可能比通用Tensor Core提升2.8-3.5倍性能。

6.3 专用KV Cache引擎

Transformer中的KV Cache是日益增长的内存挑战,尤其对于长上下文(32K、128K甚至百万token)。

未来加速器可能包括:

专门的缓存压缩引擎

硬件支持各种注意力机制(滑动窗口、局部、多尺度)

动态精度适应

预测性注意力模式预取

专门的KV Cache管理可能在同样内存预算下支持8-10倍的上下文长度。

6.4 能效与环境考量

AI计算的环境影响日益受关注,当前加速器每设备耗电数百到数千瓦。

三种有前景的方法:

1. Workload自适应电源管理

基于workload特性动态调整电压和频率。

2. 异构计算单元:

高性能核心干重活,能效核心干轻活。

3. 先进冷却技术:

直接液冷和浸没式冷却,支持更高功率密度。

这些方法可能比当前设计提升3-5倍能效。

6.5 内存-计算解耦

传统加速器架构假设计算和内存固定比例,但不同推理场景需求差异很大。

未来系统将越来越多地支持解耦架构,内存资源可以独立于计算资源扩展。

CXL内存池化结合复杂的编排软件,可以实现更灵活的内存扩展。

预期收益:

计算利用率提升15-41%

内存利用率提升28-49%

混合workload场景收益最大(41%)

TCO降低22%

6.6 局限性与挑战

这些架构趋势虽有前景,但也面临挑战:

1. 编程模型复杂性:

新架构常需专门编程模型,可能限制采用和软件生态发展。

2. 部署约束:

专门冷却、电源供应和机架级集成需求可能限制部署灵活性。

3. 成本-性能权衡:

更复杂的内存层次和专门硬件单元提高了设计和制造成本。

4. 软硬件协同优化:

最优性能需要硬件和软件栈紧密集合,可能产生供应商锁定。

7. 总结

第一,AI芯片的战争才刚开始。

NVIDIA现在领先,但不是不可撼动。TPU、IPU、Cerebras在特定场景下都有自己的优势。

第二,没有最好的芯片,只有最合适的芯片。

你的应用场景决定了你该选什么:

小batch低延迟?多核SRAM(Graphcore IPU、Groq LPU)

大批次高吞吐?晶圆级(Cerebras WSE-3)或GPU集群

MoE模型?TPU v7有Sparse Core专门优化

万亿参数怪兽?分布式GPU集群 + 张量/专家并行

第三,记住那个数字:3.7倍。

选错架构,成本直接翻几倍。

选对了,同样的预算能多跑几倍的活。

第四,未来看这几个方向:

异构内存系统(CXL内存扩展)

硬件加速MoE支持

专门KV Cache引擎

内存-计算解耦架构

给你的行动指引:

如果你是开发者

多关注量化技术(INT8/INT4),能把模型压到原来的1/4

研究vLLM、TensorRT-LLM这些推理框架

摸清楚你的模型适合什么并行策略

如果你是决策者

选硬件先看内存带宽和容量,再看算力

别只看峰值TFLOPS,那就像汽车的最高时速——日常根本开不到

内存和互联才是你日常能开多快的决定因素

如果你是投资人

专用推理ASIC赛道还有机会

推理芯片需求增速会超过训练芯片

边缘推理(手机、车端)是下一个蓝海

最后送兄弟们一句话:

算力即权力,带宽即生命线,内存即护城河。

在这场AI军备竞赛里,算法是灵魂,但芯片是肉身。

没有肉身,灵魂无处安放。

选对硬件,才能让你的大模型真正跑起来。

觉得有用点个赞,下期接着聊硬核科技。


本文来源:Sharma, A. "AI Accelerators for Large Language Model Inference: Architecture Analysis and Scaling Strategies." IEEE, 2025.

相关推荐