不跟CUDA走的那条路：燧原“驭算”赌的是什么？

燧原不是只做一颗“AI芯片”的公司，它更像在做一整套“能跑大模型的国产算力系统”：

硬件：AI加速卡/模组（招股书里直接把“AI加速卡及模组”作为核心收入来源之一），并且在多卡互联、模组形态上走得更激进；

软件：自研一整套不依赖CUDA的全栈平台“驭算 TopsRider”，覆盖驱动、编译器、算子库、工具链、深度学习框架等；

交付形态：除了卖卡，还做“智算系统及集群”项目（类似参与智算中心项目交付），而且项目定制化很强；

这条路线的潜台词是：AI算力已经从“买卡插服务器”升级成“系统级战争”——算力、显存带宽、互联带宽、散热、软件栈、集群调度，全都要一起过关。

01 为什么现在AI芯片最难的不是“算力”，而是“带宽+互联+系统形态”？

招股书里把对比指标拆得很直白：功耗、是否支持FP8、算力、显存容量/带宽、互联带宽、是否支持超节点。这其实对应工程师最熟的三件事：

预填充（prefill）更吃算力：矩阵乘起来要命。

解码（decode）更吃显存带宽/容量：KV Cache 把带宽榨干。

大规模训推更吃互联：卡间通信不够，算力再高也“堵在路上”。

所以你看它把“互联带宽/超节点支持”明确写成关键指标，并解释超节点能显著提升服务器间、机架间通信效率，从而优化千亿参数以上模型运行性能。

这段话的意义很大：国产AI芯片如果只做“单卡指标”，很容易陷入“单点很猛、集群拉胯”；而燧原至少在叙事上是把“集群”当主战场来打的。

02 硬件路线：从“PCIe卡”往“模组/系统”走——它押的是工程化

2.1 OAM模组：为什么这是个“更难但更正确”的方向？

招股书说得很工程：传统PCIe板卡做多卡高速互联时要走连接器，信号损耗大、互联速度受限；所以它做了高密度、高互联带宽的 OAM 模组方案，多卡通过 UBB 底座直接互传，降低损耗、释放互联带宽。

这话翻译一下就是：

PCIe卡是“通用形态”，但对多卡互联很不友好；

模组/底座是“系统形态”，把互联这件事从“凑合能用”变成“为高速通信而生”。

做模组不是炫技，是逼自己进入系统工程地狱：结构、供电、SI/PI、散热、可靠性、制造一致性……每一项都是坑。

2.2 液冷耦合：把性能释放写进散热里

它还写了在OAM方案里自研更先进的冷板与液冷耦合方案，在 95°C 结温限制下保障芯片持续满频运行不降频。

这句话很“硬”：很多卡跑benchmark很漂亮，但一进机柜、一上负载、一到夏天就掉频。
它把“持续满频”当成卖点，本质是承认——大模型时代拼的是可持续吞吐，不是实验室峰值。

2.3 “四代五款芯片均一次流片成功”：这不是口号，是组织能力

招股书明确写：通过验证流程前移、资源复用与多阶段协同测试方案提升覆盖率与效率，“设立以来四代5款芯片均一次流片成功”。

对芯片工程师来说，这句话的含金量在于：

先进AI芯片复杂度极高，一次流片成功意味着验证体系、DFT/DFM意识、跨团队协同，至少在某种程度上是“可复制的”；

这直接影响现金流——少一次流片就是少烧一大笔钱、少拖一个周期。

03 产品与定位：S60 / L600 在“推理”和“训推一体”上卡位

招股书在与NVIDIA/AMD的指标对比表里，直接把自家产品写成：

S60：处于国内推理卡领先水平

L600：处于国内训推一体卡领先水平

并且把FP8、显存类型/容量/带宽、互联带宽、是否支持超节点作为核心维度。

说白了就是：

S60（推理）：赌的是“解码阶段”更吃带宽与系统吞吐，推理市场更容易规模化落地（尤其互联网/内容/搜索类业务）。

L600（训推一体）：想进更难的战场——训练和推理都要能打，这要求互联、显存、算力、软件栈协同更强。

同时它也把“超节点”概念摆上桌：大模型训练、千亿参数推理需要单机多卡甚至大规模集群，互联带宽越高，多卡整体性能越高。它不是在卖一张卡，它想卖“能跑起来的一堆卡”。

04 软件路线：不依赖CUDA的“驭算 TopsRider”——最硬也最难的部分

招股书原话很直白：公司未跟随英伟达主导的CUDA生态，自研驱动、编译语言与编译器、算子库、工具链、深度学习框架等全栈平台“驭算 TopsRider”，降低大模型编程开发难度和迁移成本，让硬件更好释放性能。

这条路线的客观评价应该是“两面”：

4.1 你能看到的好处

自主可控：至少在路径选择上，不把命门交给别人。

更好贴合自家硬件：编译器/算子库能针对架构做优化，理论上更容易把峰值变成可用吞吐。

4.2 你必须承认的难处（现实很硬）

CUDA生态的“惯性”太大：框架适配、算子覆盖、性能调优、开发者习惯、第三方库……每一样都是持久战。

招股书虽然强调降低迁移成本、支持多类应用场景，但工程上要实现“真好用”，必然要长期投入。

这也解释了它的研发投入强度为什么会夸张到这种程度。

05 商业与客户结构：它已经进了“真场景”，但客户集中度压力巨大

5.1 收入结构：既卖卡，也做智算系统项目

招股书披露“智算系统及集群”在2023-2025年（1-9月）都有收入，并提到主要参与算力枢纽节点的智算中心项目，且项目定制化程度高。

这说明它不是停留在“Demo/试用”，而是在往“项目交付”走。

5.2 客户集中：腾讯直接销售收入在 2025年1-9月超过营收50%

招股书写得非常明确：报告期内除直接向腾讯销售外，还通过AVAP模式向腾讯指定的服务器厂商客户销售；并且 2025年1-9月对腾讯科技（深圳）直接销售收入超过营业收入的50%。

同时在前五大客户表里，2025年1-9月腾讯占营收比 57.28%。

06 财务现实：营收在长、但仍在大幅亏损——AI芯片就是这么残酷

招股书披露：

2024年营业收入 7.22亿元；

但仍处于亏损状态：2024年归母净亏损 -151,031.58万元，2025年1-9月归母净亏损 -88,775.60万元；

研发费用极高：2024年研发费用 131,229.38万元，且研发费用占营收比例 181.66%；

再看现金流：经营活动现金流量净额长期为负，2024年为 -179,773.78万元。
招股书解释2024年经营现金流低于净利润的原因之一是“增加备货以应对市场需求”。
AI芯片不是“设计完就赚钱”，而是“永远在砸钱追下一代”：

硬件迭代（架构、封装、互联）

软件栈持续补齐

真实客户项目交付的工程成本

供应链备货与交付节奏

这决定了它在财务上很难轻松。

07 研发路线图：它押注的不是“下一张卡”，而是“下一代大模型形态”

招股书在研发规划里明确提到第六代高性能云端AI产品研发：围绕提升算力密度、存储带宽与互联能力，强化低精度混合计算、MoE、长序列、多模态等场景的吞吐与时延表现，并持续优化能效与可靠性。

这段基本就是把当下大模型工程痛点点名了：

低精度（FP8/混合精度）

MoE（通信与调度更难）

长序列（显存与带宽压力）

多模态（算子更复杂、吞吐更敏感）

它还写了“打造能够实现万亿规模参数大模型训练的超万卡智算集群系统”的目标。
你可以把它理解为：燧原想把自己从“芯片公司”推向“算力基础设施公司”。

08 客观总结：燧原的“强”与“难”，各是什么？

它的强（从工程能力看）

系统工程意识强：OAM模组+底座互联+液冷耦合，目标是让互联带宽和持续性能释放出来。

验证与量产工程化可圈可点：四代五款一次流片成功，背后是流程体系。

不依赖CUDA，走全栈自研：驭算TopsRider覆盖从驱动到框架。

对“带宽/互联/超节点”的认识在线：指标体系与路线图都在对准大模型集群瓶颈。

它的难（从商业与生态看）

客户集中度非常高：2025年1-9月腾讯直接销售收入超过营收50%，波动风险天然存在。

亏损与现金流压力真实存在：营收在长，但亏损大、经营现金流长期为负。

软件生态是持久战：自研全栈是优势，也是最吃人、最吃时间的坑（招股书也用“持续迭代”来描述软件栈优化升级）。