燧原不是只做一颗“AI芯片”的公司,它更像在做一整套“能跑大模型的国产算力系统”:
硬件:AI加速卡/模组(招股书里直接把“AI加速卡及模组”作为核心收入来源之一),并且在多卡互联、模组形态上走得更激进;
软件:自研一整套不依赖CUDA的全栈平台“驭算 TopsRider”,覆盖驱动、编译器、算子库、工具链、深度学习框架等;
交付形态:除了卖卡,还做“智算系统及集群”项目(类似参与智算中心项目交付),而且项目定制化很强;
这条路线的潜台词是:AI算力已经从“买卡插服务器”升级成“系统级战争”——算力、显存带宽、互联带宽、散热、软件栈、集群调度,全都要一起过关。
01 为什么现在AI芯片最难的不是“算力”,而是“带宽+互联+系统形态”?
招股书里把对比指标拆得很直白:功耗、是否支持FP8、算力、显存容量/带宽、互联带宽、是否支持超节点。这其实对应工程师最熟的三件事:
预填充(prefill)更吃算力:矩阵乘起来要命。
解码(decode)更吃显存带宽/容量:KV Cache 把带宽榨干。
大规模训推更吃互联:卡间通信不够,算力再高也“堵在路上”。
所以你看它把“互联带宽/超节点支持”明确写成关键指标,并解释超节点能显著提升服务器间、机架间通信效率,从而优化千亿参数以上模型运行性能。
这段话的意义很大:国产AI芯片如果只做“单卡指标”,很容易陷入“单点很猛、集群拉胯”;而燧原至少在叙事上是把“集群”当主战场来打的。
02 硬件路线:从“PCIe卡”往“模组/系统”走——它押的是工程化
2.1 OAM模组:为什么这是个“更难但更正确”的方向?
招股书说得很工程:传统PCIe板卡做多卡高速互联时要走连接器,信号损耗大、互联速度受限;所以它做了高密度、高互联带宽的 OAM 模组方案,多卡通过 UBB 底座直接互传,降低损耗、释放互联带宽。
这话翻译一下就是:
PCIe卡是“通用形态”,但对多卡互联很不友好;
模组/底座是“系统形态”,把互联这件事从“凑合能用”变成“为高速通信而生”。
做模组不是炫技,是逼自己进入系统工程地狱:结构、供电、SI/PI、散热、可靠性、制造一致性……每一项都是坑。
2.2 液冷耦合:把性能释放写进散热里
它还写了在OAM方案里自研更先进的冷板与液冷耦合方案,在 95°C 结温限制下保障芯片持续满频运行不降频。
这句话很“硬”:很多卡跑benchmark很漂亮,但一进机柜、一上负载、一到夏天就掉频。
它把“持续满频”当成卖点,本质是承认——大模型时代拼的是可持续吞吐,不是实验室峰值。
2.3 “四代五款芯片均一次流片成功”:这不是口号,是组织能力
招股书明确写:通过验证流程前移、资源复用与多阶段协同测试方案提升覆盖率与效率,“设立以来四代5款芯片均一次流片成功”。
对芯片工程师来说,这句话的含金量在于:
先进AI芯片复杂度极高,一次流片成功意味着验证体系、DFT/DFM意识、跨团队协同,至少在某种程度上是“可复制的”;
这直接影响现金流——少一次流片就是少烧一大笔钱、少拖一个周期。
03 产品与定位:S60 / L600 在“推理”和“训推一体”上卡位
招股书在与NVIDIA/AMD的指标对比表里,直接把自家产品写成:
S60:处于国内推理卡领先水平
L600:处于国内训推一体卡领先水平
并且把FP8、显存类型/容量/带宽、互联带宽、是否支持超节点作为核心维度。
说白了就是:
S60(推理):赌的是“解码阶段”更吃带宽与系统吞吐,推理市场更容易规模化落地(尤其互联网/内容/搜索类业务)。
L600(训推一体):想进更难的战场——训练和推理都要能打,这要求互联、显存、算力、软件栈协同更强。
同时它也把“超节点”概念摆上桌:大模型训练、千亿参数推理需要单机多卡甚至大规模集群,互联带宽越高,多卡整体性能越高。它不是在卖一张卡,它想卖“能跑起来的一堆卡”。
04 软件路线:不依赖CUDA的“驭算 TopsRider”——最硬也最难的部分
招股书原话很直白:公司未跟随英伟达主导的CUDA生态,自研驱动、编译语言与编译器、算子库、工具链、深度学习框架等全栈平台“驭算 TopsRider”,降低大模型编程开发难度和迁移成本,让硬件更好释放性能。
这条路线的客观评价应该是“两面”:
4.1 你能看到的好处
自主可控:至少在路径选择上,不把命门交给别人。
更好贴合自家硬件:编译器/算子库能针对架构做优化,理论上更容易把峰值变成可用吞吐。
4.2 你必须承认的难处(现实很硬)
CUDA生态的“惯性”太大:框架适配、算子覆盖、性能调优、开发者习惯、第三方库……每一样都是持久战。
招股书虽然强调降低迁移成本、支持多类应用场景,但工程上要实现“真好用”,必然要长期投入。
这也解释了它的研发投入强度为什么会夸张到这种程度。
05 商业与客户结构:它已经进了“真场景”,但客户集中度压力巨大
5.1 收入结构:既卖卡,也做智算系统项目
招股书披露“智算系统及集群”在2023-2025年(1-9月)都有收入,并提到主要参与算力枢纽节点的智算中心项目,且项目定制化程度高。
这说明它不是停留在“Demo/试用”,而是在往“项目交付”走。
5.2 客户集中:腾讯直接销售收入在 2025年1-9月超过营收50%
招股书写得非常明确:报告期内除直接向腾讯销售外,还通过AVAP模式向腾讯指定的服务器厂商客户销售;并且 2025年1-9月对腾讯科技(深圳)直接销售收入超过营业收入的50%。
同时在前五大客户表里,2025年1-9月腾讯占营收比 57.28%。
06 财务现实:营收在长、但仍在大幅亏损——AI芯片就是这么残酷
招股书披露:
2024年营业收入 7.22亿元;
但仍处于亏损状态:2024年归母净亏损 -151,031.58万元,2025年1-9月归母净亏损 -88,775.60万元;
研发费用极高:2024年研发费用 131,229.38万元,且研发费用占营收比例 181.66%;
再看现金流:经营活动现金流量净额长期为负,2024年为 -179,773.78万元。
招股书解释2024年经营现金流低于净利润的原因之一是“增加备货以应对市场需求”。
AI芯片不是“设计完就赚钱”,而是“永远在砸钱追下一代”:
硬件迭代(架构、封装、互联)
软件栈持续补齐
真实客户项目交付的工程成本
供应链备货与交付节奏
这决定了它在财务上很难轻松。
07 研发路线图:它押注的不是“下一张卡”,而是“下一代大模型形态”
招股书在研发规划里明确提到第六代高性能云端AI产品研发:围绕提升算力密度、存储带宽与互联能力,强化低精度混合计算、MoE、长序列、多模态等场景的吞吐与时延表现,并持续优化能效与可靠性。
这段基本就是把当下大模型工程痛点点名了:
低精度(FP8/混合精度)
MoE(通信与调度更难)
长序列(显存与带宽压力)
多模态(算子更复杂、吞吐更敏感)
它还写了“打造能够实现万亿规模参数大模型训练的超万卡智算集群系统”的目标。
你可以把它理解为:燧原想把自己从“芯片公司”推向“算力基础设施公司”。
08 客观总结:燧原的“强”与“难”,各是什么?
它的强(从工程能力看)
系统工程意识强:OAM模组+底座互联+液冷耦合,目标是让互联带宽和持续性能释放出来。
验证与量产工程化可圈可点:四代五款一次流片成功,背后是流程体系。
不依赖CUDA,走全栈自研:驭算TopsRider覆盖从驱动到框架。
对“带宽/互联/超节点”的认识在线:指标体系与路线图都在对准大模型集群瓶颈。
它的难(从商业与生态看)
客户集中度非常高:2025年1-9月腾讯直接销售收入超过营收50%,波动风险天然存在。
亏损与现金流压力真实存在:营收在长,但亏损大、经营现金流长期为负。
软件生态是持久战:自研全栈是优势,也是最吃人、最吃时间的坑(招股书也用“持续迭代”来描述软件栈优化升级)。
欢迎加入行业交流群,备注岗位+公司,请联系老虎说芯(加V:tigerchip)
299
