GPU芯片新技术出现，中国厂商值得借鉴

作者：畅秋

11月6日，在创业三年，即将进入下一个三年之际，摩尔线程创始人兼CEO张建中给公司全体员工发了一封信。信中提到了很多关于过去三年研发工作的总结，以及未来发展规划的内容，不过，这封信的核心内容是：摩尔线程将进行一次岗位优化，也就是裁员。

对于这家中国本土新崛起的GPU芯片设计公司来说，最近几年的形势，使得摆在他面前的机遇和挑战都显得很凸出。

不仅摩尔线程，壁仞科技和沐曦集成电路也是近几年中国本土表现非常凸出的GPU芯片创业公司，再加上老牌的景嘉微，以及其它几家相关企业，把中国本土GPU技术和芯片产品市场热度推向了一个新高度，在主动与被动之间，取得了明显多于、快于2018年之前的成绩。

然而，在市场和美国政策的双重压力下，特别是近期美国政府将壁仞科技和摩尔线程列入了实体清单，使得它们设计出的芯片难以拿到先进制程产能，再加上市场寒冬，以及在生态系统方面与英伟达的巨大差距，生存和发展愈加艰难，裁员难以避免。

01GPU及生态系统建设

1999年10月，英伟达发布了GeForce 256，这是一款基于台积电220nm制程工艺、集成了2300万个晶体管的图形处理芯片。英伟达把Graphics Processing Unit的首字母“GPU“提炼出来，把GeForce 256冠以“世界上第一块GPU”称号，巧妙地定义了GPU这个新品类，并占据这个词的用户心智直到今天。凭借先发优势，不仅在芯片端，英伟达在GPU生态系统建设方面也是统治者，直到今天，也没有哪家厂商能够动摇它的根基。

GPU原本是为图像而生的，它把CPU从图像显示的苦力活中解放了出来，大量的流水线架构，使得GPU非常适合巨量、重复性的工作，自从GPU大规模应用以后，CPU就摆脱了这些原本由它负责的头疼工作，转而去做更擅长的指令判断和控制类的“大脑“型工作。

在发展的很长一段时间内，由GPU组成的显卡主要用于大型游戏、CAD制图和视频剪辑等图像处理工作，后来，随着应用和技术的发展，GPU又渗透到自动驾驶、医疗影像、金融模型、生物信息等多个领域。如今，GPU是人工智能（AI），特别是AI训练应用领域的明星，火遍全球。

发展了这么多年，GPU芯片赛道高度垄断，全球90%的市场被少数几家大企业占领，在集显市场，英特尔和AMD平分天下，在独显赛道，AMD、英伟达二八分成；在GPGPU（主要用于AI等高性能计算）市场，英伟达的市占率高达90%以上。

生态系统方面，2006年，英伟达推出了并行计算平台和编程模型CUDA，它让GPU拥有了解决复杂计算问题的能力，开发者们可以通过CUDA平台，更方便地调度底层的GPU算力。当前，CUDA拥有400多万开发者，大部分GPU和AI芯片创业公司的产品也都通过兼容CUDA来进入用户端。

为了追赶英伟达，英特尔于2022年发布了全新架构的第一款独立显卡，拥有超过一万名软件工程师的英特尔，在显卡发布后的一年里，其显卡驱动更新了21次，平均半年更新10版。

为了与CUDA竞争，AMD于2016年推出了开放的ROCm平台，不过，从目前的发展情况来看，ROCm的市场接受度和应用规模依然与CUDA有非常大的差距。

02中国GPU的发展近况

近些年，中国GPU取得了一些突破。

2019-2020年，中国本土出现了GPU、AI芯片创业热潮，壁仞科技、摩尔线程、燧原科技、沐曦集成电路、天数智芯等一批明星企业涌现出来，相关GPU芯片新品不断。

2022年3月，摩尔线程公布了首批显卡产品，包括面向电脑和工作站的MTT S60，以及面向服务器的MTT S2000。两张显卡都采用了第一代MUSA架构（Moore Threads Unified System Architecture，中文名为“苏堤”）。2022年11月，该公司公布了第二批产品，包括面向电脑和工作站的显卡MTT S80，以及面向服务器的MTT S3000，这两款产品采用了新一代MUSA架构“春晓”，并使用了PCIe Gen5插槽。

壁仞科技的高光时刻，是在2022年8月发布了首款GPGPU芯片BR100，并宣布该产品从800多个参选项目中脱颖而出，荣膺当年世界人工智能大会最高奖项SAIL奖。据悉，BR100峰值算力达到国际厂商在售旗舰产品3倍以上，创下国内互连带宽纪录，还是国内率先采用Chiplet技术、率先采用PCIe 5.0、率先支持CXL互连协议的GPGPU芯片。

今年6月，沐曦集成电路宣布完成AI训练GPU MXC500的功能测算工作，同时，MXMACA 2.0计算平台基础测试完成。

据悉，MXC500是沐曦对标英伟达A100/A800的芯片，目标算力为FP32 15 TFLOPS（A100为FP32 19.5 TFLOPS），兼容CUDA，预计今年底规模出货。

以上这些厂商推出的产品，目标都是要夺取英伟达和AMD在中国本土的市场份额。然而，英伟达经历了30年的持续积累，才取得今天的成绩，中国本土GPU厂商不可能在5年左右的时间内研发出具有同样水平和市场影响力的产品。不过，如果中国GPU芯片能达到英伟达H100芯片性能的70%，也是很有意义的。接下来的重点工作就是本土GPU生态系统建设。

03中国GPU生态系统建设

比提升芯片性能更难的，是构建生态系统。英伟达不仅强在芯片硬件，更强在其软件生态CUDA，其GPU+CUDA，就像英特尔和微软构建的Wintel，后来者要想再创建一整套软硬件系统的成本非常高，而且非常难，不仅仅是钱的问题。假设投入和英伟达相当的人才和资源，以3倍的发展速度追赶，至少需要10年时间才能接近英伟达的水平。

以摩尔线程为例，理论上讲，无论是GPGPU，还是桌面级应用，该公司的产品性能已经达到了英伟达中端产品水准，但实际表现并非如此。以MTT S80为例，从游戏爱好者的测试结果来看，其早期实际性能接近GTX1050Ti，今年更新驱动后，性能可以媲美GTX1650，能流畅运行英雄联盟等网游，也可以跑4K游戏，但与RTX3060相比，依然有很大差距。

MTT S80强劲的硬件却难以发挥理论性能，关键问题就是软件适配，摩尔线程差的就是底层技术和驱动经验的积累。据悉，MUSA架构源于IMG的PowerVR，这也从一个侧面体现出该公司在GPU IP方面缺乏核心技术。

通过购买IP研发GPU是中国本土大多数厂商的选择，包括芯动、壁仞科技等企业都是如此。该模式能够以最小代价设计出商用产品，但是，芯片生产出来以后，软硬件打磨就要考验厂家的技术实力了，而这些软实力是没有地方购买的。

中国老牌GPU芯片企业景嘉微曾表示，做GPU，三分靠硬件，七分靠软件。英伟达在初期的产品性能也不好，还一度被ATI压制，后期的成功除了全新架构的助攻，驱动的打磨功不可没。

中国本土这些GPU芯片新星大多都想兼容英伟达的CUDA，但是，在驱动软件的适配上还差强人意，例如，早期的MTT S80只支持DX9游戏，虽然现在历经9次版本驱动更新后，能支持更高的DX11游戏，但是其性能表现远未达到硬件实际水平。

正是看到了差距，中国本土GPU厂商一直在生态系统建设方面增加投入。例如，今年，弘信电子与摩尔线程和燧原科技分别签署了《战略合作框架协议》，以打造人工智能软硬件基础设施。

目前，摩尔线程已经将大部分资源分配给软件，占比达到70%，重点关注元宇宙和AI。沐曦已与服务器OEM、大数据中心、互联网、运营商等行业客户建立了合作关系，并与众多知名高校和研究机构开展产学研合作，快速推进产业上下游生态系统建设。

04GPU的新动向

全球范围内，在已有基础上，GPU技术及其生态依然在向前发展，目前来看，有两点很值得关注：一是GPU与CPU的融合，二是RISC-V的融入。

GPU 比 CPU 简单得多；它可以更快地执行简单的指令，执行是并行进行的，这也是GPU与CPU的最大不同之处。然而，并非所有软件都可以轻松地并行化执行。CUDA生态系统旨在提供工具来构建可以利用GPU进行并行计算的软件应用程序，但是，大多数软件应用程序仍然需要CPU才能运行。

基于 CPU 的应用程序不仅更容易开发，而且大多已经构建完成。很难想象哪些公司会花费时间和精力将已经在 CPU 上运行的东西移植到GPU上。

目前，AMD、英特尔和英伟达都在CPU-GPU融合技术方面下重注。

2023上半年，AMD首席技术官Mark Papermaster表示，该公司将在2024年推出CPU-GPU 芯片，它将基于第4代Epyc架构的CPU内核与基于新一代CDNA 3架构的GPU结合在一起，也就是AMD近些年一直在宣传的APU概念。

英特尔的CPU-GPU芯片Falcon Shores具有x86 CPU内核和Xe GPU内核，成熟产品将在2025年量产。

下面看一下RISC-V与GPU的融合。

最近，Ventana Micro Systems与Imagination Technologies合作推出了基于RISC-V的CPU-GPU平台。

Ventana计划推出一个仿真模型，展示其基于RISV-C的CPU如何与Imagination开发的GPU协同工作。这次演示将结合Ventana的新CPU产品Veyron V2。据悉，V2将对RISC-V指令集架构进行增强，使其能与x86和Arm同台竞技。

目前来看，Imagination与Ventana的合作项目距离产品量产和规模化应用还有较大距离，但是，RISC-V CPU和GPU IP融合的可用性，可能会带来针对不同客户端应用的新一波RISC-V平台开发热潮。

从目前的市场和应用需求来看，RISC-V与GPU的结合是有基础的。

在一些垂直市场，例如5G/6G 通信、AI推理和视频处理等，传统CPU已经无法满足这些应用的计算量需求，需要新计算方法的出现。对于图像处理来说，内存访问瓶颈问题已经非常凸出，需要新的解决方案，甚至是新的计算架构，看看市场上最近发布的一些人工智能和RISC-V产品，会发现一些公司发布的处理器里面有新的ISA，它们已经开始将RISC-V和GPU IP融合使用了。

通过指令扩展将GPU功能添加到RISC-V架构中很有创意，然而，二者融合这条路并不好走，最大的拦路虎就是架构融合，以及生态系统建设，需要的时间可能很长。要将RISC-V指令集改编成非常适合GPU任务的指令集，需要大量投资来定义ISA扩展，构建高度复杂的微架构，并对开源工具进行重大调整。如果将RISC-V指令集融入GPU架构，几乎所有RISC-V的固有优势都将被定制化稀释掉，另外，RISC-V核心ISA功能会限制GPU在特定领域的可用性。

虽然，有诸多挑战，但鉴于RISC-V迅猛的发展势头，以及其在高性能计算领域的渗透决心，与同样在高性能计算应用领域如鱼得水的GPU融合，前景还是很值得期待的。

不仅是国际巨头，中国本土GPU厂商，特别是更具前瞻性的几家创业公司，在发展GPU方面也需要研发更具竞争力的技术和产品，而在当下美国政府推出各种限制政策的大环境下，中国本土GPU芯片技术和生态系统建设可以拓展更多思路，将更多先进的技术和理念融入相关产品。在本土企业客户给出更多采用和试错空间的情况下，中国芯片企业或许可以加快追赶国际先进GPU的步伐。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MC9S08PA16AVTJR	1	NXP Semiconductors	Microcontroller	ECAD模型下载ECAD模型	$2.42	查看
ATXMEGA256A3-AU	1	Microchip Technology Inc	IC MCU 8BIT 256KB FLASH 64TQFP	ECAD模型下载ECAD模型	$11.92	查看
MC9S12A64CFUE	1	Rochester Electronics LLC	16-BIT, FLASH, 25MHz, MICROCONTROLLER, PQFP80, PLASTIC, QFP-80		$14.39	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MC9S08PA16AVTJR

NXP Semiconductors

Microcontroller