最近,AI芯片的热点新闻接二连三,先是一批AI芯片初创公司密集宣布IPO,再是“盘古”大模型内部人员爆料“打假”,后有黄仁勋来华并宣布H20芯片恢复销售,然后网络消息传出HW或将放弃深耕多年的昇腾ASIC路线,转向GPU路线。
众所周知,网络上的瓜往往是空穴来风。对于当下如火如荼的AI行业而言也许影响深远。
ASIC和GPU路线的差异
从CPU到GPU,再到DSP、AISC,芯片的通用性依次降低,但芯片在特定应用的性能依次升高。
CPU就属于什么都能做,但各项任务都不精。
GPU的通用性比CPU差,但在科学运算、渲染等方面性能明显强于CPU。
DSP的专用性则比GPU强,通用性则更差。
AISC则是追求特定场景专用性能牺牲通用性的典型。
打个比方,CPU就是瑞士刀,多功能,但在专业领域表现一般,上阵杀敌不如陌刀,救死扶伤不如手术刀。
AISC则像是专业刀具,厂家根据特定的应用场景,开发出手术刀、陌刀、军刺等专业工具,但这些专用刀具基本不具备通用性。简单来说,就是客户不能买了陌刀拿去干手术刀的活,买了手术刀也没法安装在步枪上拼刺刀。
由于大陆集成电路产业在设计和制造与西方有差距,本土厂商往往选择牺牲通用性,换取特定场景的高性能。
以昇腾而言,就不支持双精度浮点运算,而双精度浮点运算对科学运算至关重要。支持双精度浮点运算会提高芯片的设计复杂度和功耗,在制造工艺落后于人的情况下,一旦支持双精度浮点运算,必然影响整体性能和能效比。
相比之下,英伟达的计算卡就支持双精度浮点运算。
在PPT上,国产AI芯片也习惯于拿特定场景的性能指标去对标英伟达。
其实,这里国产AI芯片厂商玩了文字游戏,那就是英伟达的参数指标高是建立在其具有较强通用性上的,而国产AI芯片在某个指标上追平英伟达。
简言之,英伟达的计算卡是六边形战士,国产AI计算卡只是偏科生,在特定应用表现良好,无法适应多样化的应用场景。
H20热销的根源在于生态
从参数上看,H20是H100的阉割版本,算力只有H100的三分之一,不少国产AI计算卡在PPT上的算力都远远比H20强。即便如此,本土互联网公司依旧对H20产生了巨大的采购需求。
之所以如此,一方面是之前讲的,英伟达的GPU是六边形战士之外,另外一个原因就是CUDA。
英伟达围绕CUDA建立了一套相对丰富的软件生态,用户买了计算卡可以直接用,能够节约海量时间成本和软件开发成本。
在不久前的大模型套壳事件中,HW员工爆料即便是有自家AISC计算卡的情况下,也用英伟达的计算卡训练。出现这种情况的根源就在于英伟达的GPU软件生态好。
ASIC的硬件指令架构相对简单,对高带宽的敏感度不如GPU,这就大幅降低了硬件门槛。
不过,技术复杂度只会转移,不会消失。
从实践上看,AISC对软件的要求难度大于硬件。
给AISC写软件的难度远远高于给GPU写算子做优化。即便是一些头部互联网大厂,专门配备团队写软件,依旧苦不堪言,因而正在测试兼容CUDA的国产GPU,寻找更合适的AI芯片供应商。
诚然,在特定应用AISC确实有优势,但这仅仅是在特定细分市场有优势,谷歌的TPU也只是自己用,而不是面向公开市场,在易用性方面,GPU优势明显。
事实上,商业竞争终究还是看易用性和全周期使用成本。
pytorch和TensorFlow之争,尽管tensorflow局部特性可以使得性能能更好一些,但pytorch易用性的优势足以让其脱颖而出。GPU买来就用的易用性是ASIC不具备的。
GPU在全周期使用成本上相对于ASIC优势明显。购买GPU直接可用CUDA,节约了大量成本。而用AISC则需要开发深度学习引擎框架,还要专门做适配调优,资金成本和时间成本高,特别是在当下大厂技术竞赛的背景下,时间和精力非常宝贵,除非买不到英伟达的GPU,否则互联网巨头不会买ASIC。
实践证明GPU路线是主流
实事求是的说,AISC在特定应用是有优势的,比如推理,但用来训练就力所不逮了。
这几年的实践证明,AISC专用性强,适合细分市场,GPU通用性好,适合主流市场。特别是这几年AI发展迅速,通用性好的硬件更适合新场景、新业态。
这也是HW拟改换技术路线,拟放弃ASIC,转向GPU的根源。
事实上,这几年很多地方政府受到“高层路线关系”的裹挟,用高于市场的价格购买了昇腾全栈产品,建设了大量智算中心,但业内人都知道,受限于技术体系封闭,软件生态贫乏,智算中心的算力闲置较高,这是巨大的浪费。地方政府有苦难言,又不敢说出去显得打脸。
在中央要求过紧日子的当下,应当把好钢用在刀刃上,选择更加通用、可实际跑起来的产品,提升财政资金的使用效率。特别是在HW 自己都打算放弃AISC投奔GPGPU的当下,再去花高价买昇腾就是1911年挥刀自宫当太监了。
从产业发展的角度来看,GPU必然成为主流,既有硬件上六边形战士的优势,也有CUDA软件生态上的优势。
必须指出的是,GPU因其通用性,可以在游戏显卡、超算、AI等行业大展拳脚,而AISC只能限定于特定应用场景,通用性差就限制了AISC的推广,很难脱离政策建立商业上的正循环。
相比之下,GPU可以用庞大的游戏显卡个人用户来平摊成本,这是ASIC所不具备的。
更加庞大的用户数量就意味着能够更快回笼研发资金,意味着更快的技术迭代速度,意味着更快的软件生态成熟速度,这种现象在IT发展史上已经反复出现,比如服务器淘汰小型机,PC淘汰传统工作站。
未来,必然是GPU为主,ASIC为补充的行业格局。
763