• 正文
  • 相关推荐
申请入驻 产业图谱

从“算力”到“运力”, Credo如何押宝AI基础建设下一主战场?

原创
11/18 19:40
1951
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

AI集群的下一战场:不是算力规模,而是“运力”效率

过去几年,AI基础设施被简化成一个词:算力。行业讨论的中心是“有没有足够多的高端GPU”“能不能拿到卡”。但现在的矛盾正在转向另一端:不是单颗GPU有多强,而是成千上万颗GPU能否像一台机器一样协同工作。换句话说,真正稀缺的资源,正在从算力转向“运力”——也就是大规模互连、调度和数据搬运的能力。

这背后其实是系统架构在变。传统数据中心主要靠横向扩容:一排排加服务器,把算力拼出来。AI训练和推理带来的新负载,把模式变成了“scale up + scale out”的组合:同一个节点内部要继续向上堆带宽、降低延迟;不同节点之间也要互联成一个高吞吐、低抖动的整体。从芯粒级别(die-to-die、UCIe、XSR)、到板级和模块级(VSR、MR、LR等高速电互/光互)、再到机柜内、跨机柜、跨机房的集群网络,整条链路都在同时升级。也就是说,AI基础设施不再是“买更多GPU”,而是“把GPU组织成可以线性放大的集群”。谁能把这张网搭得更稳、更快、更省电,谁的AI集群效率就更高。

资本开支的分布也在说明同一件事。头部云厂商和AI公司每年在AI上的投入已经是数十亿到上百亿美元的量级,而且不再只砸在GPU本体上。行业内部的测算是,大约六分之一的AI基础投入,正直接流向网络与高速互连,包括光模块、交换、线缆、电接口等环节,而不是算力芯片本身。这意味着“连接”已经从配套件,变成独立的预算中心。也就是说,互连正在吃到AI基础设施里的真金白银,而不是做边角生意。

这种转向在两个场景里体现得尤其明显:推理规模化,以及能耗约束。

首先是推理。Credo的光DSP产品副总裁Chris Collins表示,早期大家讲AI集群,更多是在谈训练——几千、上万张卡围着一个超大模型反复算梯度,典型诉求是极高带宽的全域互联。现在格局变了:当推理走向大规模商用,意味着同时请求服务的用户会多出好几个数量级。想象一下,数十万甚至上百万个终端(车队、机器人、移动设备)在同一时间把推理请求打回云端,并希望毫秒级响应。这不仅要求继续堆GPU数量,还是一次对互连架构的硬考核:链路时延能不能继续压低,I/O能不能避免拥塞,模块级、板级、机架级的信号链是不是还能保持稳定可维护。

推理业务的爆发,直接把“互连延迟”和“互连功耗”推到台前。过去它们像基础设施里的配角,现在它们是业务能否上线的决策项:如果链路太慢,响应卡住;如果链路太耗电,同一条供电红线下就塞不下更多GPU。

第二个关键词是能耗。AI数据中心正在进入十万卡级别的部署规模后,每一瓦电都要算经济账。以典型的超大规模数据中心为例,十万张GPU的整站功耗可能在百兆瓦量级,而光模块本身就占到其中的几个百分点。看上去只是几个百分点,但在这个功耗天花板下,“省下来的几兆瓦”意味着可以不扩电力基础设施、直接再多塞几千张GPU卡去跑推理服务。这就是为什么业界如此执着于低功耗光互连、低功耗有源线缆(AEC)、线性可插拔光模块(LPO/LRO)这些听上去很工程化的东西:节能本身已经等同于“等额新增算力”。

这也解释了为什么在800G这一代开始出现多条不同的技术路线:全DSP方案强调可视性、易维护;LPO/LRO强调把功耗打到极低,牺牲一部分链路诊断能力换系统总功耗回落。到了1.6T时代,这种权衡会更激进。带宽翻倍之后,数据中心不再把“可视性”摆在唯一优先级,越来越多的客户开始接受“先把功耗压下来,再想怎么运营和监控”的现实路线。根本原因是,AI集群已经不是几柜几排的小规模实验,而是真正变成生产力基础设施,高耗电就是高成本。

往后看,AI数据中心高速连接的技术之争还面临两个变化:CPO vs AEC,和800G vs 1.6T。

第一场是封装层面的。CPO(光电共封装)被很多人视作下一代高带宽互连的终点方案:把光引擎和交换/加速芯片放进同一封装里,缩短距离、压功耗、提带宽。它的目标带宽已经指向6.4T/端口级别。但是产业现实是,CPO的落地仍面临工艺复杂度、散热难度、可靠性、可维护性等问题,短期内不会“一刀切”替代现有可插拔模块。相反,CPO更像是新增的一个互连层级:芯片本体到光引擎之间需要新的高速、低功耗电接口,这恰好也是高速SerDes、chiplet互连等厂商在提前卡位的地方。也就是说,CPO并不是把传统互连供应商排除在外,而是把战场推到了更靠近芯粒/封装的那一层。

 

与此同时,AEC(有源电缆)这条线并没有消亡。传统印象里,铜缆适合短距离,过机架就不现实;但现实部署正在往反方向走:AEC正从机架内互连,扩展到跨机架场景,并且在一些大客户侧已经是量产方案。原因非常直接:铜缆方案在很多场景下功耗更低、可靠性高、成本结构也更好,还能绕开部分光模块在维护和更换上的复杂度。也就是说,哪怕CPO继续前进,AEC仍会在可预见的几年里保持存在感,特别是在算力网络的“中距离互连”这一层。

第二场是速率的代际切换。市场上有一种线性叙事:1.6T将全面接替800G,后者很快过时。现实并没这么快。800G仍在放量,尤其在一些区域市场里生命周期会很长;与此同时,1.6T的产业链(交换芯片、网卡、光模块、DSP等)还在爬坡,很多环节距离“全线可大规模交付”还有工作要做。厂商现在的策略,基本都是“两条线同时走”:一边继续铺800G/400G的现网需求,保证当下出货;一边提早把1.6T相关的DSP、LRO、光模块方案推到客户那里做联合验证,好让下一代系统的功耗、可靠性、调试方法提前成型。

这一点很关键:1.6T不是一个“明天立刻全量上线”的标准,而是一个需要提前18个月以上做系统联调的工程节点。等它真正成熟,行业预期它的出货规模会超过800G的峰值,但那已经是几年的时间尺度,而不是一夜切换。

把这些趋势合在一起,可以看到AI基础设施的主线已经从“单卡性能”走向“全栈互连效率”。训练到推理的转折,带来了以低时延为核心的网络诉求;十万卡级别的集群规模,把每一瓦电力都变成了算力预算;互连技术不再是单一路线押注,而是铜缆、可插拔光模块、CPO、chiplet、1.6T DSP多线并行、分层落地。

Chris Collins表示,面对以上趋势,Credo把自己定位成“高速连接解决方案提供商”,它强调的行业趋势不是单纯把带宽做大,而是把大量GPU高效连成一个可协同工作的整体。也就是说,算力竞争正在从“有多少GPU”转向“这些GPU之间能否以足够高的吞吐、足够低的功耗和时延去稳定互联”,而这正由数据中心内部网络来决定,尤其是可规模化的高速互联。围绕这个方向,Credo把核心押在SerDes(高速串行器/解串器)技术上,并由此向外铺开成一个分层的产品体系:底层是SerDes IP本身,既可授权给客户,也作为公司技术护城河;往上一层是基于这套IP做成标准芯片,比如Retimer、用于光模块的DSP、SerDes chiplet等;再往上一层是把这些芯片直接做成可量产部署的系统级产品,如AEC(有源电缆)。这意味着Credo不只是“卖一颗芯片”,而是直接卖互联能力本身,覆盖不同介质、距离、拓扑下的链路完整性和集群“运力”。

Chris Collins认为,这种全栈布局正好踩在AI基础设施升级的拐点:随着集群规模指数级上升,数据中心需要的是高带宽+低功耗+可扩展的互联方案,而不是简单堆更多单卡算力。Credo披露,其解决方案已经覆盖到1.6Tb/s端口速率,并且财务上也在快速放量:最新一个财季营收达到2.23亿美元,同比增幅超270%,环比也增长30%以上,多季度刷新纪录。

Credo面向AI集群的四大产品主线

Chris Collins认为,AI集群真正的瓶颈已经从“有没有GPU”转向“GPU之间能不能高效协同”。 在这轮AI基础设施建设里,Credo的定位是“算力互联的基础层”。

为了解决这个问题,Credo把数据中心网络拆成两类:一类是机柜与机柜之间的大规模横向扩展(scale-out),对应的是不同节点之间的数据同步、训练集群之间的互联;另一类是单个机柜、单个节点内部的纵向扩展(scale-up),也就是一台“超级机柜”里如何继续塞进更多GPU、更多加速卡、更多高速I/O而不失控。围绕这两类需求,Credo形成了几条互补的产品线:AEC有源电缆、PCIe Retimer/PCIe AEC、以太网互联芯片(Retimer/Gearbox/MACsec)、光DSP,以及配套的链路可视化工具“PILOT”。这些线条表面上看分散,实质上都在回答一个问题:AI训练集群在变得更大、更密、更热、更贵之后,怎么让它们既跑得动、又管得住。

第一条主线是AEC(Active Electrical Cable,有源电缆)。这是Credo最早投入的系统性产品、也是它口中“进入AI数据中心的第一把钥匙”。这条线并不是AI热潮起来之后才临时搭的。Credo大约七八年前就开始做AEC,积累了大量专利,如今已经量产覆盖100G、200G、400G、800G等速率档位,可以在一套AI训练集群里,给速率不完全一致的设备做可靠对接。AEC的本质价值,不是“线缆+信号放大”,而是把Credo自研的高速芯片直接做到线缆端,例如Retimer、Gearbox,去主动修正、重定时信号,确保高速电信号在较长距离传输后仍然干净、可判决。这一能力直接改变了数据中心里的互联架构:客户在很多机柜内、跨机柜连接上可以少用一部分高功耗、高成本的光模块,而在成本、功耗、布线复杂度之间取得一个更平衡的点。Credo给出的一个非常直观的指标是,它的AEC可以把一条稳定的高速链路拉到大约7米,这在过去基本只能靠光手段来解决。随着AI整机功耗上行、液冷机柜快速上量,GPU和交换板卡并不总能呆在同一机架的最优位置,互联距离被迫拉长,AEC正好卡在这个需求点上。

 

第二条主线,是面向PCIe总线生态的PCIe Retimer和PCIe AEC。这条线解决的并不是机柜之间怎么连,而是“一台机柜内部还能不能继续往上叠加资源”。目前主流AI服务器的内部互联几乎都围绕PCIe展开:CPU到GPU、GPU到GPU、存储设备、加速卡、CXL扩展设备,全部挂在PCIe总线上。行业正在从PCIe Gen5往Gen6走。Gen6的带宽再次翻倍,但副作用是:信号衰减更敏感、可容忍的噪声余量更低、走线布局更严苛,同时系统里要挂载的设备数量又比上一代更多,尤其是为了追求更大的单节点算力,厂商会尝试在一台机柜里塞入更多GPU和更多高速I/O口。这意味着没有高质量的链路调理,就很难把“算力密度”继续往上拉。

Credo推出的新一代PCIe Retimer,目标就是在PCIe Gen6时代稳定住这些链路,让主机(CPU或主控交换芯片)还能有效管理更多下挂设备,不至于在物理层就开始掉链路、爆错误、限带宽。换句话说,它让“单机柜的超级节点”能继续长大,而不会在规模到达一定程度后变成一团不可维护的“电磁噪声球”。与此配套,Credo把自己在以太网AEC上的成功模块化经验平移到了PCIe,开发出PCIe AEC,直接把稳定长距离PCIe链路这件事做成可复制方案。公司提到,这一代PCIe Gen6产品已经基于7nm工艺量产,设计过程里不仅考虑信号完整性,也考虑延迟、功耗、制造一致性,目标是让客户能量产部署,而不是只停留在实验室演示。

第三条主线,是面向数据中心以太网互联的芯片系列,这是Credo目前相对成熟、已经跑量的业务,包括Retimer、Gearbox、MACsec安全加密芯片等,已经经历了从56G到112G的产业化,并正向224G演进。这条线的定位,可以理解为“数据中心前端网络”的基础部件:也就是负责任务分发、南北向流量进出、多租户隔离、跨机房传输等传统数据中心职责。这里最有代表性的产品之一是MACsec芯片。传统做法是通过更上层的软件/网关去做隔离和加密,问题在于延迟上不去、带宽上不来,尤其是跨数据中心或跨租户场景,安全与性能经常二选一。Credo的做法是在链路层实现线速加密,单链路带宽可以做到1.6T,同时支持包括SM4在内的国密算法。这让大型云服务商、运营商可以在同一张物理网里同时承载不同租户/业务域,而不必因为安全合规要求而牺牲吞吐,或者额外拉一套“安全专网”。换句话说,这条产品线不仅在“跑得快”,还在“跑得安全”。

第四条主线,是光DSP以及相关的高速光互联器件。Credo在交流中明确把这一方向和AI训练本身绑定:过去,数据中心网络可以被视为单张“平面网”;现在,随着大模型训练的规模飙升,正在出现“双网络结构”——前端网络继续负责常规业务流量,而后端网络专门服务于GPU到GPU之间的高速互联,用来把成百上千颗GPU像一台巨型计算机那样同步训练。后端网络对带宽和延迟的要求极端苛刻,需求量也不是线性增加,而是成倍上跳。

重点产品展示

本次CIOE期间,Credo展示的主要产品,分别对应Seagull、Dove、Lark、Bluebird四个系列,以及一套实网级互通展示。

  1. Seagull:单波50G时代的基本盘

在单波50G这一代,Credo的Seagull系列光DSP已经是出货量最大的成熟产品线,特别是在中国市场的400G/200G/100G短距互连里。系列共有4款器件,覆盖1×50G、2×50G、4×50G、8×50G等配置,方便客户按端口速率去做400G、200G、100G甚至50G的光模块或有源光缆

Seagull把VCSEL驱动器直接集成在DSP内。VCSEL是一类成本低、功耗低、适合短距的数据中心内部互连用激光器。把驱动集成进去,相当于少用一颗独立芯片,能同时降低BOM成本和整机功耗。

这些芯片最终对应的典型模块形态包括400G SR4、400G AOC、200G SR4等,都是国内互联网厂商和大型数据中心仍在大批量部署的主力规格。也就是说,Seagull不是实验品,而是长期供货的现金型产品线,已经在第四代DSP架构上跑了多代网络和多速率场景,客户复用成本很低。

  1. Dove:单波50G向单波100G的过渡工具

网络正从单波50G走向单波100G,尤其是交换机整机带宽已进入51.2T时代。但现实并不是全链路同步升级:很多交换机端口已经上到单波100G,而下游服务器/NIC/GPU侧仍停留在单波50G,出现“新老口径并存”。

Dove系列正是为这个阶段设计的,是Credo第一代单波100G光DSP,包括Dove 480、Dove 410和Dove 800。

其中,Dove 480主打Gearbox能力:电口和光口可跑不同速率,实现一端4×100G、另一端兼容8×50G。这样,运营方可以先升级交换机侧的100G链路,但仍保留现有50G服务器和加速卡,无需一次性全网替换。

Dove 410和Dove 800则分别对应400G和800G模块(4×100G和8×100G结构),面向SR4、VR4等常见短距、多模、成本敏感场景,已经过国内多家客户的现网环境验证。它们的卖点不只是“能跑到100G”,而是“已经能插到主流交换机/网卡上稳定跑”。

  1. Lark:把单波100G做成AI集群能用的形态

如果说Dove解决的是“如何把100G拉进现实网络”,Lark系列强调的是“如何让100G适配AI集群的功耗和时延要求”。

Lark是单波100G DSP,属于Credo第五代DSP架构,相比上一代在整体功耗上再降约35%,同时显著降低端到端链路时延。对AI训练/推理集群来说,GPU之间参数同步越快,整体训练迭代越短,推理响应也越快,因此链路时延本身就是算力效率的一部分。

Lark还支持一种LRO(半DSP)模式:发送端仍用DSP做均衡与补偿,接收端不再放完整DSP,等于“半边DSP”。基于Lark 850做出来的800G单模光模块,在500米链路上长时间运行仍能保持与全DSP方案相当的误码率表现,但功耗可在标准全DSP基础上再降35%以上。这意味着同机架的功率预算、散热压力都能明显下降,对正在扩容AI算力池的数据中心来说,这是直接的运营成本优化点。

  1. Bluebird:指向1.6T和单波200G的下一代答案

Bluebird可以理解为Credo押注未来AI互联形态的旗舰,是一款单波200G、面向1.6T光模块的DSP平台。它采用3nm工艺,是Credo第六代DSP架构,目标是在下一代1.6T互连里同时做到极低功耗和极低时延。

设计理念很直接:AI训练/推理集群优先。也就是说,它不只是追求带宽翻倍,而是把延迟、链路可靠性、掉线重传代价这些“算力集群痛点”当成同等级指标来优化。在超大规模训练网络里,任何瞬时链路闪断都会导致一次完整迭代报废、重新计算,代价巨大,因此稳定性被视为和速率同等的重要指标。

在功耗方面,基于Bluebird的1.6T全DSP光模块,整机功耗可做到“远低于25W”。25W本身已经是行业很多厂商努力压缩的目标,但Credo的部分客户反馈,他们的1.6T模块设计在Bluebird平台上甚至可以显著低于这个数字。如果采用类似LRO的“半DSP”模式,功耗还有机会压到20W甚至更低,接近今天主流800G模块的水平。也就是说,1.6T并不是“800G×2功耗”,而是在带宽翻倍的同时,把能耗和时延控制到可大规模上架的区间。

  1. 实网级演示:不是PPT,而是现成组合

除了芯片本身,Credo还带了一个“迷你AI集群”式演示:用主流服务器,通过常见的200G/400G网卡和来自不同客户的光模块,接到12.8T或51.2T交换机,再把这些设备互联跑通。交换机、网卡、光模块都来自多家合作伙伴,包含二十多个已进入量产设计流程的实际型号。

这个展示的目的,是向客户证明这些模块已经和主流交换机/NIC完成互通,而不是“给你一颗DSP自己回去调”。对正在搭AI集群的用户来说,这类“现场跑过”的组合,相当于是给出一条风险可控的部署清单。

Credo “三高三低”竞争优势

总结自身的竞争优势,Credo在技术层面大概是“ 三高三低”:

“ 三高 ”指高带宽、高性能、高可靠性。

高带宽首先体现在单波速率的推进上。行业从50G往100G单波演进的过程中,很多厂商在50G时代还主要停留在约53G这一档,而Credo已经在做56G、58G甚至64G;进入100G单波时代,他们同样在向112G甚至128G推。这种差距并不是宣传口径上的“更快一点”,它决定了单个端口能否顺利往800G甚至1.6T上走,而不需要额外堆更多链路、更多模块、更多机架空间。对于今天的大模型训练集群来说,带宽已经不是简单的“链路是否够用”,而是在同样的机柜功耗预算、散热能力和空间体积下,能不能继续扩展通信吞吐,而不推倒重来做基础设施改造。

高性能更多是算整体链路效率,不是芯片本身跑多快。AI训练并不是一颗GPU在自嗨,而是成百上千甚至上万颗GPU在同一张高速互联网上做同步计算。只有当“GPU到GPU之间”的互联足够干净、足够快,这个集群才能像一台“巨型单机”一样在合理的时间窗口里完成训练任务。Credo的说法是,它的SerDes和DSP技术路线就是为这种“集群级算力”服务,而不是只盯着单芯片跑分。

高可靠性被他们视为和带宽、性能同等级的卖点。Chris Collins表示,随着越来越多的超大规模数据中心、AI训练集群开始量产采用其器件,客户侧反馈显示,其链路稳定性和可靠性指标相较部分对标方案可以高出“两个数量级”。对于传统数据中心业务来说,链路偶发掉线是烦,但还能兜住。对AI训练来说,这是致命的:一条链路“抖”一下,最后可能不是一台服务器离线,而是整批训练进程重来,几百张卡、几小时计算直接报废。换句话说,在AI场景里,“可靠性”基本等于“是否能继续生产”。

对应的“ 三低 ”,是低功耗、低时延、低成本。

低功耗,是所有大型数据中心和算力基地绕不过去的硬指标。互联芯片和DSP不是孤立发热体,它们叠加到数十万只光模块、数千条高速链路之后,直接变成机房级别的电力支出与散热负担。Credo强调的是在同等带宽和制程节点上继续压能耗。Chris Collins内部给过一个例子:在5nm节点上,他们的112G测试芯片,依靠深度定制的库和时序优化,比部分同代玩家还能再降大约30%的功耗;在更高目标(单波224G)上,他们也在复制同样的思路。这种差距,放到单颗芯片上只是几瓦,放到集群里就是能否上电、能否过消防审计、能否在现有水冷/风冷系统下稳定跑满的现实问题。

低时延,是AI训练网络里的“第二生命线”。在传统数据中心网络设计中,吞吐量是第一优先,延迟通常可以通过堆缓存、做重传、做调度策略去部分掩盖。但在大模型分布式训练里,延迟意味着GPU之间多久能把梯度同步完。延迟越大,同样规模的集群,单位时间内的有效训练进展越慢。Credo称,在一些客户的链路压测中,他们的互联系统相对同级产品展现出明显的时延优势,而且网络规模越大,这种优势越被放大。用工程语言讲:如果你打算做上千卡、上万卡集群,低时延不是“体验更好”,而是“经济模型更划算”。

低成本包含几个维度:器件本身的BOM成本、交付周期的可控性、供应链弹性、还有网络部署的整体复杂度。对很多国内客户来说,这是关键点,尤其在高性能GPU的获取仍受限制的当下。把手里的算力如何用“更经济的互联方式”组织起来,决定的不是漂亮的实验室成绩,而是实际能不能把AI模型规模做上去、把训练周期压下来。这一点上,Credo把自己明确定义为“提升现有算力池效率的公司”,而不是“卖你一堆全新重资产硬件的公司”。

行业的常规路径,是在先进代工厂(如台积电)给的标准单元库、时序库基础上完成芯片实现。这种方式的优点是稳,风险低,能把芯片按时做出来;缺点是性能、功耗、面积大多停留在“能用”水平。Credo的做法更激进:拿到基础库之后进行深度定制,重写关键单元,重收敛时序,把速度、功耗、面积在同一工艺节点上重新平衡。这种“自己改库”的能力,被他们视作一道真正的护城河。它解释了为什么他们可以在同一制程下,把功耗打下来,同时又维持甚至提高速率目标。

总结:做下一代AI数据中心的共建者

可以看到,Credo不再满足于“我是模块/芯片供应商”这种被动角色。Credo现在更倾向于把自己描述成下一代AI数据中心网络拓扑的参与者,甚至是共建者。它不只卖标准芯片和DSP,而是把SerDes IP授权、Chiplet协同、整机互联系统方案打包给客户,直接进入客户自研的算力ASIC、机架架构甚至整套AI集群网络的设计流程里。用更直白的话说,Credo不只是“卖设备的人”,而是试图在下一代AI数据中心互联拓扑里占据主角位置,并且已经在高带宽互联核心器件上,向传统领先者发起了正面竞争。

 

来源: 与非网,作者: 李坚,原文链接: https://www.eefocus.com/article/1918992.html

相关推荐