从0到10亿：NVIDIA与RISC-V的十年长跑，为什么很少有人知道？

提起NVIDIA，你最先想到的是什么？是横扫全球AI算力市场的H100、B100“核弹级”GPU？是黄仁勋每场发布会都能点燃行业的技术宣言？还是那句出圈的“我们创造了AI”？但很少有人知道，这家站在全球算力之巅的巨头，早已是RISC-V领域的超级玩家。

2024年一整年，NVIDIA单年出货的RISC-V核心，正式突破了10亿颗大关。这个数字有多夸张？很多深耕RISC-V赛道多年的厂商，累计出货量都未必能摸到这个门槛。而NVIDIA，甚至很少把“RISC-V”挂在嘴边。

在RISC-V北美峰会上，NVIDIA多媒体架构副总裁Frans Sijstermans，终于揭开了这家AI巨头与RISC-V之间，长达近十年的隐秘故事。根据NVIDIA 2024年RISC-V峰会披露的数据，英伟达2024年一年就出货了超过10亿个RISC-V核心！这些核心不是单独卖的CPU，都是嵌在每个英伟达加速器里的：一般一块芯片放10到40个，最新的Blackwell GB200里。

这些RISC-V核心管什么？协调数据交换、上下文切换、内存热管理，还当硬件信任根做安全启动，整个GPU的控制命脉都交给RISC-V了。

1：NVIDIA和RISC-V的缘分，早在2016年就已经开启。

很多人不知道，英伟达用RISC-V不是今天才开始的，早从2016年就开始内部替换了，替换的就是用了快二十年的Falcon微控制器。

啥是Falcon？就是英伟达GPU里管视频解码、内存复制、安全管理的小控制器。

从2005年用到现在，GPU核心从几百个涨到几万个，老32位的Falcon早就顶不住了：寻址不够，性能上不去，缓存支持差，线程也保护不了。

性能要到Falcon的两倍以上，面积增加不超两倍，支持64位寻址，还能跑现代实时系统。当时英伟达把市面上所有指令集都筛了一遍，只有RISC-V满足要求：就这么着，NV-RISCV家族诞生了。

给你们看个最直观的对比：

架构特性	传统 Falcon 控制器	NV-RISCV (基于 RISC-V)
寻址能力	仅限 32 位	支持 64 位物理/虚拟寻址
性能基准	基准值	提升 3 倍以上
缓存架构	无/受限	支持多级缓存与紧耦合内存 (TCM)
自定义指令	不可扩展	超过 20 个针对 GPU 控制优化的自定义扩展
安全性	基础级别	集成 ICD (In-Circuit Debug) 与安全调试功能

这场替换的规模，远超行业想象。

如今，每一颗NVIDIA芯片组里，都会根据配置集成10到40个RISC-V核心。从消费级游戏显卡，到数据中心的AI加速卡，再到车载智能芯片，几乎所有NVIDIA产品里，都有RISC-V核心的身影。也正是这样的全产品线铺开，让NVIDIA在2024年，正式跨过了“单年出货10亿颗RISC-V核心”的里程碑。而按照NVIDIA的预估，这场架构替换最终会带来数百亿级的RISC-V处理器出货。

很多人会好奇：为什么NVIDIA用了这么多RISC-V核心，行业里却鲜有耳闻？答案很简单：这些RISC-V核心，都在产品的“幕后”工作。它们不直接面向终端用户，却撑起了NVIDIA整个产品体系的底层运行，是GPU帝国里看不见的“地基”。与此同时，NVIDIA也是RISC-V社区最核心的共建者之一。

从RISC-V首届社区会议开始，NVIDIA就深度参与，几乎一直保持着董事会层面的代表席位，同时加入了多个技术工作组、RISE软件组织，既从社区生态中受益，也持续向社区反哺技术成果。NVIDIA 从仅支持 32 位的 Falcon 核心向 RISC-V 迁移，最初的核心驱动力是对 64 位运算能力的需求。其首款 RISC-V 研发成果，是一款采用标准扩展的常规双发射乱序执行 RISC-V 核心，可部署为多处理器版本。

后续，NVIDIA 又补充了面向面积受限场景的 32 位版本，以及搭载 1024 位向量单元的向量处理器。不抢GPU的风头，RISC-V在NVIDIA里到底干了啥？必须先澄清一个误区：这些RISC-V核心，从来不是要替代NVIDIA的CUDA GPU核心，去做并行计算和AI训练。它们的定位，是整个算力系统的“超级管家”与“特种辅助”，核心工作集中在三大关键领域。

1. 功能级控制器：GPU的“毛细血管管家”

我们日常使用显卡的视频编解码、画面输出、摄像头接入、内存调度、芯片间数据传输，还有GPU任务的上下文切换，这些看似不起眼却至关重要的基础功能，全部由RISC-V核心负责管控。

它们就像GPU里的毛细血管管家，把每一个功能模块打理得井井有条，才让GPU的主核心能心无旁骛地跑算力。

2. 芯片/系统级控制：整颗芯片的“中枢调度官”

一颗GPU能否稳定运行、能否把功耗和性能平衡到极致、能否守住数据安全的底线，全靠系统级的管控。

而资源管理、电源管理、全芯片安全体系这三大核心工作，正是RISC-V核心的核心阵地。

小到显卡的动态频率调节，大到数据中心级的机密计算防护，背后都有RISC-V核心在兜底。

3. 数据处理：AI算力的“特种辅助部队”

除了管控工作，RISC-V核心也会承担特定的数据处理任务：比如网络芯片里的数据包路由，再比如深度学习加速器（DLA）里，非矩阵乘类的AI网络层运算。

这些工作不算GPU的核心算力场景，却又必不可少，交给RISC-V核心处理，既能给GPU主核心减负，又能大幅提升全系统的运行效率。

2：RISC-V落地的标杆场景

在峰会上，NVIDIA也公开了两个RISC-V落地的标杆场景，彻底揭开了这套体系的核心价值。

场景一：GPU系统处理器（GSP）——GPU的“首席执行官”

过去，主机CPU的内核驱动，需要直接操控GPU内部的一个个控制寄存器，不仅复杂度极高，还很难兼顾虚拟化和安全性。

而GSP，就是一颗基于64位RISC-V架构的嵌入式处理器，它就像GPU的“首席执行官”：主机只需要下发高层级的指令，GSP就会自动把这些指令翻译成底层的寄存器操作，完成对GPU全资源的调度。更关键的是，依托RISC-V的隔离能力和NVIDIA的自定义扩展，GSP能通过分离内核，把不同的虚拟机、vGPU runtime严格隔离，互不干扰。这正是NVIDIA云GPU、虚拟化方案、机密计算能力的核心根基——客户的GPU算力可以完整交付给虚拟机，不受底层虚拟化层的影响，安全和性能都拉满。

场景二：深度学习加速器（DLA）——AI推理的“全能辅助”

在NVIDIA的AI专用SoC里，DLA是核心的推理引擎，负责跑ONNX等深度学习网络模型。其中，卷积计算、矩阵乘法这些“重活”，由专用硬件单元负责，而剩下的绝大多数非矩阵乘网络层、全流程调度控制，全靠RISC-V核心撑起。NVIDIA在DLA里部署了两颗RISC-V核心：一颗32位NV-RISCV32核，负责全系统的运行时控制；一颗NV-RVV向量核，搭载1024位向量单元，负责各类算子的运算。

二者配合，就能实现完整的ONNX模型端到端推理，给GPU主核心大幅减负，让AI推理的效率和灵活性都上了一个台阶。

3：量身定制：NVIDIA的RISC-V自研全家桶

NVIDIA从来不是RISC-V的“拿来主义者”，而是基于这套开源指令集，做了全链路的深度自研，打造了一套完整的RISC-V“全家桶”。

三大自研核心，覆盖全场景需求针对不同的工作负载，NVIDIA打造了三款核心RISC-V处理器，形成了完整的产品矩阵：

核心型号	核心架构	核心定位	关键特性
NV-RISCV32	RV32I-MU	本地控制场景	顺序单发射，主频1.8GHz，主打面积受限、低功耗的控制类场景
NV-RISCV64	RV64I-MSU	高性能系统控制	乱序双发射，主频2GHz，支持多核SMP，主打GSP这类系统级高性能管控场景
NV-RVV	RV32I-MU+向量扩展	数据处理与AI运算	搭载1024位向量单元，主打DLA深度学习推理、数据并行处理场景

基于RISC-V的可扩展特性，NVIDIA开发了超过20个自定义扩展，覆盖通用功能、安全、性能三大维度，既解决了自身的场景需求，也给整个RISC-V社区带来了贡献。

专属优化的2KB页大小扩展，让 legacy 软件的性能直接提升50%；64位物理/虚拟地址扩展，完美适配数据中心分布式大内存场景；指针掩码扩展，被纳入RISC-V官方标准，如今已被全球社区开发者广泛使用，为安全类应用提供了核心能力。

4：Peregrine子系统：一次开发，全产品复用

如果说自研核心是积木，那Peregrine子系统，就是NVIDIA搭好的“万能积木套件”。这套子系统以RISC-V核心为基础，整合了DMA、安全IP等全套外设，同时配套了统一的软件栈。NVIDIA旗下超过30个系统控制与管理应用，都可以基于这套子系统灵活配置——需要低功耗控制就选32位核心，需要高性能就选64位核心，再按需叠加对应的扩展，不用每次都从零开发。

软件层面更是如此，一套统一的软件栈，覆盖了启动程序、操作系统、分离内核、应用层库文件，全产品线通用。硬件和软件的双重复用，让NVIDIA的开发成本大幅降低，研发效率和投资回报拉到了极致。

更关键的是，这套子系统把安全做到了骨子里。核心的分离内核就像一个轻量级 hypervisor，能把系统拆分成多个完全隔离的执行环境，不同安全等级的应用可以在不同分区独立运行，比如满足车规ASIL-D安全认证的程序，和普通应用互不干扰。NVIDIA甚至专门组建了内部攻防安全团队，以“黑客”视角持续挖掘设计漏洞，筑牢安全底线。

5：为什么偏偏是RISC-V？

全球商用架构这么多，为什么NVIDIA偏偏选中了RISC-V，还把它做成了全产品的底层根基？在峰会分享中，NVIDIA给出了5个最核心的理由，也道破了RISC-V最核心的竞争力。

第一，极致的定制化能力，把硅片价值榨到极致。RISC-V的开源授权模式，让NVIDIA可以把基础指令集当作“积木底座”，自由添加适配自身场景的扩展和配置，不用被商用架构的固定设计绑死，每一寸硅片都能用到刀刃上。

第二，软硬件协同设计，实现效率双向优化。基于RISC-V的开放架构，NVIDIA可以针对软件负载做定向的硬件优化，同时基于硬件特性优化软件栈，双向奔赴的协同设计，让系统效率远超市面上现成的通用处理器。

第三，按需配置的灵活性，不花一分冤枉钱。通用商用处理器往往功能过剩，很多场景下90%的特性都用不上，却要为其支付成本和功耗代价。而RISC-V可以让NVIDIA只选择自己需要的扩展，精准匹配场景需求，大幅降低成本和开发工作量。

第四，自定义扩展的自由度，想要什么功能就加什么。不管是功能适配、安全加固还是性能提升，NVIDIA都可以通过自定义扩展实现，完全不用等待商用架构的版本迭代，完全掌控产品的研发节奏和能力边界。

第五，统一的软硬件架构，实现全生态复用。这是最核心的一点，一套通用的硬件IP、一套统一的软件栈，就能覆盖NVIDIA旗下30多个应用、全产品线的需求，不用为每一款产品、每一个场景重新开发一套架构，不仅大幅降低了研发成本，更简化了部署流程，让产品迭代速度大幅提升。

很长一段时间里，行业里总有一个误区：RISC-V还只是“小众玩家”，只能做物联网、MCU这类低端场景，登不上算力舞台的中央。但NVIDIA的故事，给了这个误区最有力的反驳。

当10亿颗RISC-V核心，随着NVIDIA的GPU走进全球的数据中心、个人电脑、智能汽车，当站在全球算力之巅的巨头，把RISC-V当作自己产品体系的底层根基。我们已经能清晰地看到：RISC-V早已不是边缘玩家，它已经走进了算力产业的最核心地带。10亿颗年出货量，从来不是终点，只是一个开始。

RISC-V的时代，早已到来。