• 正文
  • 相关推荐
申请入驻 产业图谱

从0到10亿:NVIDIA与RISC-V的十年长跑,为什么很少有人知道?

17小时前
349
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

提起NVIDIA,你最先想到的是什么?是横扫全球AI算力市场的H100、B100“核弹级”GPU?是黄仁勋每场发布会都能点燃行业的技术宣言?还是那句出圈的“我们创造了AI”?但很少有人知道,这家站在全球算力之巅的巨头,早已是RISC-V领域的超级玩家。2024年一整年,NVIDIA单年出货的RISC-V核心,正式突破了10亿颗大关。这个数字有多夸张?很多深耕RISC-V赛道多年的厂商,累计出货量都未必能摸到这个门槛。而NVIDIA,甚至很少把“RISC-V”挂在嘴边。在RISC-V北美峰会上,NVIDIA多媒体架构副总裁Frans Sijstermans,终于揭开了这家AI巨头与RISC-V之间,长达近十年的隐秘故事。根据NVIDIA 2024年RISC-V峰会披露的数据,英伟达2024年一年就出货了超过10亿个RISC-V核心!这些核心不是单独卖的CPU,都是嵌在每个英伟达加速器里的:一般一块芯片放10到40个,最新的Blackwell GB200里。这些RISC-V核心管什么?协调数据交换、上下文切换、内存热管理,还当硬件信任根做安全启动,整个GPU的控制命脉都交给RISC-V了。

1:NVIDIA和RISC-V的缘分,早在2016年就已经开启。

很多人不知道,英伟达用RISC-V不是今天才开始的,早从2016年就开始内部替换了,替换的就是用了快二十年的Falcon微控制器。啥是Falcon?就是英伟达GPU里管视频解码、内存复制、安全管理的小控制器。从2005年用到现在,GPU核心从几百个涨到几万个,老32位的Falcon早就顶不住了:寻址不够,性能上不去,缓存支持差,线程也保护不了。性能要到Falcon的两倍以上,面积增加不超两倍,支持64位寻址,还能跑现代实时系统。当时英伟达把市面上所有指令集都筛了一遍,只有RISC-V满足要求:就这么着,NV-RISCV家族诞生了。

给你们看个最直观的对比:

架构特性 传统 Falcon 控制器 NV-RISCV (基于 RISC-V)
寻址能力 仅限 32 位 支持 64 位物理/虚拟寻址
性能基准 基准值 提升 3 倍以上
缓存架构 无/受限 支持多级缓存与紧耦合内存 (TCM)
自定义指令 不可扩展 超过 20 个针对 GPU 控制优化的自定义扩展
安全性 基础级别 集成 ICD (In-Circuit Debug) 与安全调试功能

这场替换的规模,远超行业想象。 如今,每一颗NVIDIA芯片组里,都会根据配置集成10到40个RISC-V核心。从消费级游戏显卡,到数据中心的AI加速卡,再到车载智能芯片,几乎所有NVIDIA产品里,都有RISC-V核心的身影。也正是这样的全产品线铺开,让NVIDIA在2024年,正式跨过了“单年出货10亿颗RISC-V核心”的里程碑。而按照NVIDIA的预估,这场架构替换最终会带来数百亿级的RISC-V处理器出货。很多人会好奇:为什么NVIDIA用了这么多RISC-V核心,行业里却鲜有耳闻? 答案很简单:这些RISC-V核心,都在产品的“幕后”工作。它们不直接面向终端用户,却撑起了NVIDIA整个产品体系的底层运行,是GPU帝国里看不见的“地基”。与此同时,NVIDIA也是RISC-V社区最核心的共建者之一。从RISC-V首届社区会议开始,NVIDIA就深度参与,几乎一直保持着董事会层面的代表席位,同时加入了多个技术工作组、RISE软件组织,既从社区生态中受益,也持续向社区反哺技术成果。NVIDIA 从仅支持 32 位的 Falcon 核心向 RISC-V 迁移,最初的核心驱动力是对 64 位运算能力的需求。其首款 RISC-V 研发成果,是一款采用标准扩展的常规双发射乱序执行 RISC-V 核心,可部署为多处理器版本。后续,NVIDIA 又补充了面向面积受限场景的 32 位版本,以及搭载 1024 位向量单元的向量处理器。不抢GPU的风头,RISC-V在NVIDIA里到底干了啥?必须先澄清一个误区:这些RISC-V核心,从来不是要替代NVIDIA的CUDA GPU核心,去做并行计算和AI训练。它们的定位,是整个算力系统的“超级管家”与“特种辅助”,核心工作集中在三大关键领域。

1. 功能级控制器:GPU的“毛细血管管家”

我们日常使用显卡的视频编解码、画面输出、摄像头接入、内存调度、芯片间数据传输,还有GPU任务的上下文切换,这些看似不起眼却至关重要的基础功能,全部由RISC-V核心负责管控。

它们就像GPU里的毛细血管管家,把每一个功能模块打理得井井有条,才让GPU的主核心能心无旁骛地跑算力。

2. 芯片/系统级控制:整颗芯片的“中枢调度官”

一颗GPU能否稳定运行、能否把功耗和性能平衡到极致、能否守住数据安全的底线,全靠系统级的管控。

而资源管理、电源管理、全芯片安全体系这三大核心工作,正是RISC-V核心的核心阵地。

小到显卡的动态频率调节,大到数据中心级的机密计算防护,背后都有RISC-V核心在兜底。

3. 数据处理:AI算力的“特种辅助部队”

除了管控工作,RISC-V核心也会承担特定的数据处理任务:比如网络芯片里的数据包路由,再比如深度学习加速器(DLA)里,非矩阵乘类的AI网络层运算。

这些工作不算GPU的核心算力场景,却又必不可少,交给RISC-V核心处理,既能给GPU主核心减负,又能大幅提升全系统的运行效率。

2:RISC-V落地的标杆场景

在峰会上,NVIDIA也公开了两个RISC-V落地的标杆场景,彻底揭开了这套体系的核心价值。

场景一:GPU系统处理器(GSP)——GPU的“首席执行官”过去,主机CPU的内核驱动,需要直接操控GPU内部的一个个控制寄存器,不仅复杂度极高,还很难兼顾虚拟化和安全性。 而GSP,就是一颗基于64位RISC-V架构嵌入式处理器,它就像GPU的“首席执行官”:主机只需要下发高层级的指令,GSP就会自动把这些指令翻译成底层的寄存器操作,完成对GPU全资源的调度。更关键的是,依托RISC-V的隔离能力和NVIDIA的自定义扩展,GSP能通过分离内核,把不同的虚拟机、vGPU runtime严格隔离,互不干扰。这正是NVIDIA云GPU、虚拟化方案、机密计算能力的核心根基——客户的GPU算力可以完整交付给虚拟机,不受底层虚拟化层的影响,安全和性能都拉满。场景二:深度学习加速器(DLA)——AI推理的“全能辅助”在NVIDIA的AI专用SoC里,DLA是核心的推理引擎,负责跑ONNX等深度学习网络模型。其中,卷积计算、矩阵乘法这些“重活”,由专用硬件单元负责,而剩下的绝大多数非矩阵乘网络层、全流程调度控制,全靠RISC-V核心撑起。NVIDIA在DLA里部署了两颗RISC-V核心:一颗32位NV-RISCV32核,负责全系统的运行时控制;一颗NV-RVV向量核,搭载1024位向量单元,负责各类算子的运算。二者配合,就能实现完整的ONNX模型端到端推理,给GPU主核心大幅减负,让AI推理的效率和灵活性都上了一个台阶。

3:量身定制:NVIDIA的RISC-V自研全家桶

NVIDIA从来不是RISC-V的“拿来主义者”,而是基于这套开源指令集,做了全链路的深度自研,打造了一套完整的RISC-V“全家桶”。

三大自研核心,覆盖全场景需求针对不同的工作负载,NVIDIA打造了三款核心RISC-V处理器,形成了完整的产品矩阵:

核心型号 核心架构 核心定位 关键特性
NV-RISCV32 RV32I-MU 本地控制场景 顺序单发射,主频1.8GHz,主打面积受限、低功耗的控制类场景
NV-RISCV64 RV64I-MSU 高性能系统控制 乱序双发射,主频2GHz,支持多核SMP,主打GSP这类系统级高性能管控场景
NV-RVV RV32I-MU+向量扩展 数据处理与AI运算 搭载1024位向量单元,主打DLA深度学习推理、数据并行处理场景

基于RISC-V的可扩展特性,NVIDIA开发了超过20个自定义扩展,覆盖通用功能、安全、性能三大维度,既解决了自身的场景需求,也给整个RISC-V社区带来了贡献。专属优化的2KB页大小扩展,让 legacy 软件的性能直接提升50%;64位物理/虚拟地址扩展,完美适配数据中心分布式大内存场景;指针掩码扩展,被纳入RISC-V官方标准,如今已被全球社区开发者广泛使用,为安全类应用提供了核心能力。

4:Peregrine子系统:一次开发,全产品复用

如果说自研核心是积木,那Peregrine子系统,就是NVIDIA搭好的“万能积木套件”。 这套子系统以RISC-V核心为基础,整合了DMA、安全IP等全套外设,同时配套了统一的软件栈。NVIDIA旗下超过30个系统控制与管理应用,都可以基于这套子系统灵活配置——需要低功耗控制就选32位核心,需要高性能就选64位核心,再按需叠加对应的扩展,不用每次都从零开发。软件层面更是如此,一套统一的软件栈,覆盖了启动程序、操作系统、分离内核、应用层库文件,全产品线通用。硬件和软件的双重复用,让NVIDIA的开发成本大幅降低,研发效率和投资回报拉到了极致。更关键的是,这套子系统把安全做到了骨子里。核心的分离内核就像一个轻量级 hypervisor,能把系统拆分成多个完全隔离的执行环境,不同安全等级的应用可以在不同分区独立运行,比如满足车规ASIL-D安全认证的程序,和普通应用互不干扰。NVIDIA甚至专门组建了内部攻防安全团队,以“黑客”视角持续挖掘设计漏洞,筑牢安全底线。

5:为什么偏偏是RISC-V?

全球商用架构这么多,为什么NVIDIA偏偏选中了RISC-V,还把它做成了全产品的底层根基?在峰会分享中,NVIDIA给出了5个最核心的理由,也道破了RISC-V最核心的竞争力。第一,极致的定制化能力,把硅片价值榨到极致。RISC-V的开源授权模式,让NVIDIA可以把基础指令集当作“积木底座”,自由添加适配自身场景的扩展和配置,不用被商用架构的固定设计绑死,每一寸硅片都能用到刀刃上。第二,软硬件协同设计,实现效率双向优化。基于RISC-V的开放架构,NVIDIA可以针对软件负载做定向的硬件优化,同时基于硬件特性优化软件栈,双向奔赴的协同设计,让系统效率远超市面上现成的通用处理器。第三,按需配置的灵活性,不花一分冤枉钱。通用商用处理器往往功能过剩,很多场景下90%的特性都用不上,却要为其支付成本和功耗代价。而RISC-V可以让NVIDIA只选择自己需要的扩展,精准匹配场景需求,大幅降低成本和开发工作量。第四,自定义扩展的自由度,想要什么功能就加什么。不管是功能适配、安全加固还是性能提升,NVIDIA都可以通过自定义扩展实现,完全不用等待商用架构的版本迭代,完全掌控产品的研发节奏和能力边界。第五,统一的软硬件架构,实现全生态复用。这是最核心的一点,一套通用的硬件IP、一套统一的软件栈,就能覆盖NVIDIA旗下30多个应用、全产品线的需求,不用为每一款产品、每一个场景重新开发一套架构,不仅大幅降低了研发成本,更简化了部署流程,让产品迭代速度大幅提升。很长一段时间里,行业里总有一个误区:RISC-V还只是“小众玩家”,只能做物联网MCU这类低端场景,登不上算力舞台的中央。但NVIDIA的故事,给了这个误区最有力的反驳。 当10亿颗RISC-V核心,随着NVIDIA的GPU走进全球的数据中心、个人电脑、智能汽车,当站在全球算力之巅的巨头,把RISC-V当作自己产品体系的底层根基。我们已经能清晰地看到:RISC-V早已不是边缘玩家,它已经走进了算力产业的最核心地带。10亿颗年出货量,从来不是终点,只是一个开始。 RISC-V的时代,早已到来。

相关推荐