众所周知,AI芯片领域,英伟达GPU一家独大,但最近有个新选手跳出来叫板——LPU,专门做大语言模型处理(LLM)的新架构。
这玩意到底是黑科技还是炒概念?
今天咱就硬核拆解,谁才是AI的最优解,看完你就懂了。
核心结论先给你撂这:GPU仍是全能扛把子,LPU是LLM推理领域的专门杀手,如果你只做大语言模型推理,LPU现在已经比GPU更强。但是做LLM的训练,那么GPU地位无可撼动。
1. 先聊老大哥:GPU到底是怎么干活的?
很多人只知道GPU跑AI快,但不知道为啥快。
GPU的核心是计算单元(Compute Unit),每个计算单元里塞了一堆小处理单元,英伟达这边叫CUDA核心,每个小核负责做基础的加减乘除逻辑运算,一个计算单元就能同时跑上千个线程,堆的核心越多,并行能力就越强。
GPU架构核心组成示意图
这里插个专业名词解释:
指令集架构(ISA),说白了就是软件和硬件之间的翻译官,你写的CUDA代码要先翻译成GPU能读懂的指令,不同GPU的指令集不一样,专门针对AI优化的指令集,跑AI就能比普通的快很多。
现在新出的GPU,基本都带专门的加速单元:比如英伟达的Tensor Core,AMD的Matrix On,就是专门给AI矩阵运算加速的,比通用核心快好几个量级。
再说说内存层级,GPU的内存分三级,每一级都有不同的作用:
1. 共享内存:同一个计算单元里的核心共用的高速内存,低延迟,方便核心之间交换数据,适合重复用的数据
2. 全局内存:就是GPU的主内存,容量大,能放大数据集和完整程序,但是访问速度比共享内存慢很多
然后就是最关键的通信,GPU那么多核心,数据要跑的通才有用,不同架构用了不同的互联方案:
总线互联:简单好做,但是人多了就堵车,大负载容易成瓶颈
片上网络(NoC):多路由器组网,比总线带宽高延迟低,现在高端GPU都用这个
点对点(P2P):核心和内存直接连,不用走共享总线,关键数据交换延迟直接砍半
拓扑结构也有讲究,交叉开关允许任意计算单元连任意内存,灵活但容易抢资源;网状网每个单元只连邻居,冲突少,局部通信效率高;环形总线把单元串成圈,比普通总线冲突少,适合特定通信场景。
最后GPU靠两个 trick 榨干性能:多线程+流水线。
用单指令多线程(SIMT)模型,一个计算单元同时跑一堆线程,流水线就是把复杂任务拆成好几个小步骤,不同核心同时干不同步骤,整体延迟直接往下压,所以才能同时处理海量数据。
2. 新选手LPU:专门给语言模型生的孩子
LPU现在确实没多少人听过,目前做的最好的就是Groq的LPU,咱今天就拿它举例,讲明白这个新架构到底牛在哪。
LPU全称是语言处理单元,从根上设计就是为了解决NLP(自然语言处理)任务的痛点——咱做大模型推理,文字是一句一句顺序出来的,本身是 sequential 顺序处理的活,GPU天生是为并行计算设计的,处理这种顺序任务、不规则内存访问,就是大炮打蚊子,有劲使不出。
众核型结构与流处理架构
Groq的LPU用的是张量流处理器(TSP)架构,天生就适合顺序处理NLP数据,直接解决了大模型推理两个老大难问题:计算密度和内存带宽。
Groq LPU TSP架构示意图
它把计算资源和内存访问优化的刚刚好,不会出现GPU那种,计算单元闲着想等数据吃不上的情况,所以跑NLP推理性能直接拉满。
LPU最擅长的就是推理任务——就是预训练好的大模型拿来给用户生成内容,比如聊天机器人、翻译、AI写作,这些场景对延迟要求很高,LPU低延迟的优势就体现出来了。它还给大模型核心的注意力机制做了专门的硬件加速,理解上下文的速度更快。
再说说软件生态,Groq给LPU做了完整的软件栈:专门的编译器能直接把TensorFlow、PyTorch写的模型翻译成LPU能跑的指令,开发者不用从头改代码,原来的工作流直接能用,运行时还帮你管内存分配、调度,不用自己折腾,对开发者挺友好。
内存设计这块LPU也有自己的思路:
用L2缓存放不常用的数据,减少去慢的主内存拿数据的次数;主内存专门给预训练模型分了独立的存储区,拿参数更快;而且它片上集成了高带宽SRAM,不用一直依赖慢的外部内存,延迟降了,吞吐量也上去了,做大模型推理爽的一批。
互联方面,LPU也用专门的设计保证处理单元和内存之间的通信速度,然后同样用多线程+流水线榨干性能,把专门做NLP的优势拉到最大。
3. 硬碰硬对比:GPU和LPU到底谁强?
首先说清楚,俩芯片定位不一样,直接比跑分不太公平,LPU从设计开始就是做NLP推理的,GPU是通吃所有AI任务的,咱分场景说:
LPU的优势:大模型推理快到飞起
根据公开数据,Groq的LPU做AI推理,速度比目前市面上所有GPU都快。
而且LPU能存更多数据在更靠近计算单元的地方,不用频繁往外部内存跑,NLP应用跑起来又顺又快,用户聊天完全感觉不到卡顿,体验比GPU好很多。
GPU的优势:全能选手,通吃全流程
GPU不是只能做推理,从训练到部署全AI生命周期都能搞定,从大模型预训练,到图像识别、数据分析、科学计算,什么活都能接,加上英伟达专门的Tensor Core这类AI加速核心,训大模型还得靠GPU,目前LPU还干不了这个活。
如果你的需求是多场景通用,需要从训练到部署全流程干活,负载是高度并行的多类型任务,那闭着眼选GPU就行,生态成熟性能稳定,啥活都能接,目前还是产业界的主力。
如果你核心就是做NLP应用,尤其是大语言模型推理,追求低延迟高吞吐,还要控制成本,那LPU的专门优化就能给你带来质的提升,性能和成本都比GPU更划算。
4. 最后说点我的看法
很多人现在一出来新技术就喊着GPU要被颠覆了,我觉得这事没那么快。
LPU确实是AI算力领域一个非常好的创新——它没有跟着GPU的老路走,专门盯着大模型推理这个刚需痛点做定制化架构,确实做出来了差异化的性能。
未来AI算力肯定不是一家独大,也不会只有一种架构打天下。
做训练有GPU。
做推理有专门的LPU。
不同任务用最适合的硬件。
这也许是AI芯片未来之路。
参考:CUDO Compute官方博客《GPU versus LPU: which is better for AI workloads?》
262