头部站队形成，国产GPGPU赶集式“落地”走到哪了？

什么是GPGPU？

GPGPU似乎是最近几年才流行起来的，外行人听着感觉是比GPU还要厉害的东西。事实上，GPGPU是英文General-Purpose computing on Graphics Processing Units的缩写，中文译为通用图形处理器，可以理解为是GPU的一个分支。

从历史的角度来看，GPU的产生是为了解决游戏中图形渲染效率的问题，但是随着图形芯片技术的不断迭代，GPU的处理功能和计算能力不断提升。2001年，得益于shader的出现，GPU在图形流水线中引入了可编程性，从此GPU能做的事情不再局限于图形数据的处理，而将触角延伸至其他计算密集的领域，开启了GPGPU时代。

跳过GPU，本土厂商为何选择自研GPGPU？

有人说，没了图形渲染的GPGPU不过是一款专用的ASIC，真的是这样吗？在2021年中国集成电路设计创新大会上，笔者也对该问题进行了提问。沐曦的CEO陈维良是这样回复的，“ASIC的设计是偏离通用GPU架构的，其软件适配灵活性将面临很大的挑战，产品的应用生命周期也比GPGPU短。”这意味着GPGPU和ASIC从底层架构上就能区别是两种技术，各自服务于相应的应用场景，并不能混为一谈。

图源：沐曦官网

至于“跳过GPU，直接选择GPGPU新战场”的原因，陈维良表示，“全球GPU市场已经形成半垄断局面，再加上图形渲染是一个存量市场，正面交锋实属不易，选择增量市场的计算型GPU，也就是我们说的GPGPU，也许是明智之举。”

事实上，跳过GPU的说法本身就不是很准确。从GPU体系架构的角度来看，我们可以把GPGPU分为三大家族。

第一个家族的长辈是传统GPU，主导者包括英伟达和AMD/ATI，这类架构有一个显著的特性，那就是包含大量结构简单的处理核心构成的阵列。它会以高度并行化的方式批量处理数据，这些带有向量特征的处理阵列是由传统GPU中的多条并行的渲染管线发展而来。此外，这类GPGPU中仍或多或少地存在一些专用于图像处理的部件，如纹理Cache、帧缓冲等。但是，随着通用计算的需求日益显著，GPGPU正越来越专注于通用计算能力，而渐渐弱化其作为显卡的功能。

第二个家族的长辈是传统的多核CPU，典型代表是以CPU著称的Intel，它的架构理念是对传统CPU核心进行裁剪，从而得到相对轻量级的处理核心，构成其计算部件。这样做的优点是可以兼容部分传统CPU的指令集，它的缺点是相对于上述GPGPU中的细粒度处理单元，这类处理核心仍然比较复杂，因此核心的集成度远不及第一家族的GPGPU。

第三个家族是GPU和CPU的联姻产物，融合了GPU和CPU的架构特色，典型的代表是AMD的APU产品系列。这类架构的做法是将GPGPU中的处理阵列直接作为CPU的加速部件集成到同一颗芯片内。这样做带来了两大好处，好处一：CPU核心的融入增强了GPGPU的标量处理能力，更适合通用计算的要求；好处二：融合的结构可缓解GPGPU和CPU之间的通信带宽受限问题。

此外，英伟达作为一家美籍华人创立的公司，其实并没有把太多的研发工作投在中国，所以从人才组成的角度，我国做GPGPU的创业者大部分来自AMD、Imagination和Intel，其中AMD占主导。事实上，这些本土公司在做GPGPU时，他们的研发人员之前都经历过GPU相关技术的研发，因此从技术的角度来说，并没有跳过GPU，而站在市场的角度，面对数据爆发时代的到来，自研GPGPU是顺应市场自然选择的结果。

头部站队初步形成，国产GPGPU正酝酿一场“大落地”

根据不完全统计，中国大陆大约有7家相对主流的GPGPU公司，它们分别是天数智芯、登临科技、壁仞科技、摩尔线程、珠海芯动力、沐曦和红山微电子。

为什么说头部战队已经基本形成呢？因为GPGPU的技术开发难度是很高的。“通常业内一款高端芯片的前端和后端设计要耗时1～3年，设计完成后的流片环节，需要3～6个月，还会有流片失败一切重来的风险。即使成功流片，仍然还需要经过3～12个月的产品测试调优，才能最终开启量产。” 天数智芯董事长兼CEO刁石京如是说。

举个例子，强如intel，从1997年开始布局，通过收购C&T，入股Real3D后，在1998年推出了第一款独立GPU i740后就少有成果，直到2007年眼红英伟达的GPGPU市场，开始重启GPU计划，推出产品Larrabee，可惜性能价格都没有竞争力，再到2020年又推出了全新的独立GPU架构Xe，可惜截至目前，Intel仍未推出自己消费级的独立GPU产品。

由此可知，GPGPU市场准入门槛是很高的，而目前从大厂出来有这方面技术积累，又能拉到投资的人基本流动得差不多了。此外，我们知道GPGPU的工艺要用上12nm、7nm甚至5nm技术，除了高端技术人员的薪资支出以外，流片的成本也非常之高，高投入意味着必须要高产出才能盈利，因此产品落地量产势在必行。而这些本土的GPGPU厂家大多面向数据中心和云端市场，头部可以配合“拉练”的客户梯队也都已经形成，后面再挤入困难有些大。

图 | 天垓100，图源：天数智芯官网

结合上述论点，我们来看一下本土GPGPU厂商的进展情况。从产品落地的角度来看，目前只有天数智芯宣布其首款云端7nm GPGPU产品卡——“天垓100”已正式进入量产环节（今年10月29日的消息），单芯算力每秒147T@FP16。紧随其后的是登临科技、珠海芯动力和壁仞科技。登临科技在2020年7月14日宣布其首款GPU+产品已成功回片通过测试，开始客户送样，据悉今年11月已开始启动量产；珠海芯动力的联合创始人李原在今年7月份透露，其第一款应用于边缘服务器的芯片R8已经流片，采用三星14nm工艺，算力达到32 TOPS，功耗小于14W；壁仞科技在今年的10月8日宣布其首款7nm GPGPU——BR100已正式交付台积电流片，预计将于明年面向市场发布。接下来是摩尔线程，摩尔线程在11月25日的发布中只表明其首颗国产全功能GPU研制成功，换句话说流片、测试、联调等等都还是后头的事儿。至于另外两家，沐曦和红山微电子，成立的日期相对较晚，目前应该还在初代产品研发阶段。值得一提的是，沐曦的研发队伍还是很强大的，其创始人陈维良曾任AMD图形研发高级总监，CTO杨建为前AMD Fellow，所以未来跻身前三的机会也很大。

当然，前面只是根据各家企业产品落地的情况进行了梳理，至于他们所用的产品架构、工艺制程、算力、能效比、面向的细分市场以及公司战略等都不在考虑的范围内，要是都考虑进来，可能这个进度又得推翻重来。不过从这些厂商的产品发布进度来看，目前大家都想当“第一”，可以说是正在酝酿一场“赶集式”的大落地。

GPGPU的下游市场在哪里？

厂商的纷纷投入，离不开投资界的推动，更离不开下游市场的需求。

据公开数据显示，目前中国GPGPU 90%的市场都被以英伟达为代表的外企瓜分，仅2019年，英伟达和AMD两大美企就在国内GPGPU市场赚走了约80亿元。半垄断市场带来的是高售价，当前一块高端的GPGPU板卡，市场售价高达十几万元，相当于一辆普通小轿车的价格。与此同时，有专家预测，到2025年，我国GPGPU芯片板卡的市场规模将达458亿元，年复合增长率高达32%。由此可见，GPGPU产品国产化势在必行。

那么有人要问了，国内GPGPU的市场需求到底分布在哪些行业呢？根据业内人士提供的中国GPGPU出货量行业结构信息显示，2019年接近一半的GPGPU用于互联网市场，三分之一左右的GPGPU用于安防和政府市场，十分之一左右的GPGPU用于其他行业的AI应用，接近十分之一的GPGPU用于HPC市场。当然这是2019年的数据，现在的情况可能会有所调整，比如HPC的比重有所增加等等。

写在最后

英伟达3000亿美元市值、AMD1000亿美元市值，中国的GPGPU市场规模和赛道都足够大，也许三五年后，本土也能做出个“小英伟达”、“小AMD”来。所以说，国产GPGPU的下一步考验的是如何做大？而除了持续融资提供经济动力外，这些公司所有的竞争力都将聚焦于一点，那就是产品高性能下的性价比，性价比决定出货量，出货量代表市场的认可，市场带来资金活水，从而形成良性循环。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATSAMD51P20A-AU	1	Microchip Technology Inc	RISC Microcontroller, 32-Bit, FLASH, 120MHz, CMOS, PQFP128	ECAD模型下载ECAD模型	$8.28	查看
DS3234S#T&R	1	Maxim Integrated Products	Real Time Clock, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20		$7.73	查看
FT232RL	1	FTDI Chip	Serial I/O Controller, CMOS, PDSO28, 5.30 X 10.20 MM, 0.65 MM PITCH, GREEN, SSOP-28	ECAD模型下载ECAD模型	$10.08	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATSAMD51P20A-AU

Microchip Technology Inc

RISC Microcontroller, 32-Bit, FLASH, 120MHz, CMOS, PQFP128