扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

超节点战事升级:英伟达、华为等集体押注,国产互联芯粒如何破局

2小时前
104
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

AI算力竞赛进入“超节点时代”。

英伟达发布新一代Blackwell Ultra集群,华为推出384卡液冷超节点,沐曦、摩尔线程等国内玩家纷纷亮剑——一场围绕“高带宽、高密度、高能效”的超级计算架构之战,正悄然改写智算中心的游戏规则。
然而,在硬件堆砌的背后,一个更深层的挑战浮出水面:如何让成千上万张GPU“像一颗芯片一样工作”?
互联,成为超节点效能的关键瓶颈。
在此背景下,国内首家推出超节点通用互联芯粒的奇异摩尔,正试图用一颗“小芯片”撬动千亿级算力基建的互联生态。
芯师爷独家对话奇异摩尔联合创始人、产品及解决方案副总裁祝俊东,深入解读超节点的技术本质、行业痛点,以及国产互联芯粒的破局之路。

访

Q1目前,超节点的概念非常火热,包括英伟达、华为、中科曙光、摩尔线程、沐曦在内的多家头部企业均推出相应方案。请问什么是超节点?您如何看待超节点的发展趋势?

祝俊东:
近期,超节点概念火热,相关会议增多,ODCC 举办了第一届超节点大会,显示出行业对超节点的关注度不断提高。超节点其实没有一个很明确的标准定义,更多是一个行业概念。这个概念最早是谷歌在大约五六年前提出的,他们称之为“高带宽域”(High Bandwidth Domain,HBD)。
简单来说,超节点是指在智算集群中,将一定数量的计算单元(比如GPU或其他xPU)通过极高带宽的网络互联在一起,形成一个内部通信效率远高于外部互联的算力单元。例如,一个由100张GPU组成的超节点,其内部互联带宽远高于这100张GPU与集群中其他GPU之间的连接带宽。在这样一个超节点内部,因为互联带宽足够高,这些GPU可以像一颗大的xPU一样协同工作。
从形态上看,超节点通常表现为物理规模更大的机柜。例如华为推出的384卡超节点,就是一整排机柜;中科曙光、阿里等也有类似方案。这意味着服务器从容纳几个、十几个计算单元,发展到可容纳几十甚至近百个计算单元,并且这些大服务器之间通过高带宽紧密互联。
所以,超节点可以理解为:将若干张GPU以极高带宽互联在一起,位置靠近,并能像一颗统一的计算单元那样工作的技术架构。

Q2 现阶段,超节点建设还存在哪些挑战?

祝俊东:
超节点虽然从效能来看是一个非常好的解决方案,但也面临多方面的挑战:
首先是供电与散热。超节点功耗非常高,传统数据中心一个机柜约30kW,而超节点机柜可能达到60、70甚至100kW。这对数据中心的电力基础设施和散热系统都提出了更高要求,因此很多超节点方案-已经采用液冷散热。
其次是连接密度与距离问题。超节点内部需要实现高速互联,连接方式无论是通过背板还是线缆,密度都是一个挑战。现在行业内在推动例如正交背板这类高密度连接方案。另外,随着超节点规模扩大,例如达到512卡甚至1000卡,节点内距离变远,传统电缆无法满足需求,必须引入光互联。比如华为的384卡超节点,就已在节点内部使用光连接。
第三是协议与标准缺失。超节点内部互联需要统一的协议支持,但目前这一领域还缺乏像以太网或传统移动通信类似成熟的标准。这导致不同厂商之间的设备难以互联互通,也影响了交换机和计算节点之间的对接方式。最近一两年,行业里无论是国际还是国内,都出现了不少超节点相关的规范和标准倡议,比如SUE、OISA、ETH-X、UALink等,这些开放协议生态本身是一个积极的发展方向。

Q3 在目前的超节点互联方案中,有芯粒(Chiplet)和IP两种类型。相较而言,两种技术路径在效率、性能、成本等方面各有什么优势?

祝俊东:
IP是一种比较传统的实现方式,相当于购买一个功能模块集成到芯片中。它的优势是大家比较熟悉,集成起来相对容易。但不足之处是采购成本高,且与计算芯片绑定紧密,一旦互联协议或标准发生变化,就需要重新设计芯片,迭代缺乏灵活性。
芯粒方案则是将互联功能独立做成一个单独的芯片模块,与计算芯粒通过先进的异构集成方式集成在一起。它的优势主要体现在三方面:
一是提升计算性能。芯粒可以将更多芯片面积留给计算单元,从而提高算力。
二是迭代灵活。计算芯粒和互联芯粒可以独立升级。这样即使未来超节点标准发生变化,也只需更新互联芯粒,而不必改动计算芯粒,大大降低了迭代成本和周期。
三是降低研发门槛。采用芯粒方案,客户在设计中不需要从头开发互联部分,可以直接使用成熟的互联芯粒,从而缩短设计周期,降低前期投入。

Q4 奇异摩尔推出了Kiwi G2G IOD超节点互联芯粒,也是业内首个针对这一行业痛点的系统性解决方案。该方案有哪些独到优势?奇异摩尔在AI网络互联方面还有哪些独到技术? 

祝俊东:
Kiwi G2G IOD是业界首个通用的超节点互联芯粒。此前的互联芯粒多是厂商自研自用,而我们提供的是开放、通用的解决方案。
奇异摩尔的优势主要有以下几点:
支持多协议且可编程。我们基于自研的HPDE高性能可编程架构,可以在同一颗芯粒上支持不同的互联标准,并能通过更新来适应未来标准的演进,解决了标准快速迭代带来的兼容性问题。
标准化接口与软件支持。我们采用UCIe标准接口,并提供完整的软件接口,客户可以快速将芯粒集成到其产品中,降低集成难度。

此外,奇异摩尔是一家拥有横跨AI基础设施互联全栈服务能力的硬科技企业。在Scale up超节点xPU间互联,凭借我们在芯粒领域的丰富经验,还能提供给客户基于芯粒的参考设计、验证与设计支持,帮助客户降低研发门槛,加速产品落地。
在Scale Out网间互联领域,我们面向运营商、云厂商、智算集群提供专为AI网络定制的AI NIC ,又名Kiwi SNIC 超级网卡,它具备高性能RDMA能力,可有效应对AI网络中的拥塞、丢包等各种互联挑战。

Q5 AI时代,算法厂商、硬件厂商和云厂商之间的传统分工边界正在模糊,行业上下游跨界协同的案例越来越多。您如何看待这一行业趋势?奇异摩尔是否有相应的案例可以分享?

祝俊东:
AI时代与云计算时代的一个很大不同,在于迭代速度极快,对软硬件协同的要求非常高。传统IDC那种清晰的分工模式正在被打破,算法、硬件、基础设施必须更紧密地协作。
奇异摩尔作为硬件底层厂商,也积极与模型厂商、云厂商、 Infra厂商乃至交换机厂商开展交流和合作。例如,我们与多家模型厂商和云厂商共同探讨模型发展趋势对硬件和互联的具体需求,比如Scale Up与Scale Out在不同场景下的优化方向等。
我们还会定期组织闭门技术沙龙,邀请产业链上下游伙伴一起研讨技术趋势与协同需求。这种跨层对话对推动整个AI基础设施的迭代演进非常重要。

Q6DeepSeek通过顶尖的全栈工程优化,证明大模型推理可以做到既强大又经济,也间接带动了AI推理市场的爆发。在您看来,相较于训练,大模型推理对于芯片和网络互联的需求有什么变化,技术趋势又将如何发展?

祝俊东:
DeepSeek的实践表明,推理也可以通过大规模集群实现高性价比,这对整个AI推理市场的推动非常明显。
推理与训练在需求上有几个明显区别:
第一是对带宽要求更高。推理超节点需要TB级的互联带宽,远高于传统PCIe的几十GB水平。
第二是协议复杂度增加。随着超节点规模扩大,互联协议从点对点协议变为相对复杂的网络协议,对网络协议的处理和调度能力提出了更高要求。
第三是延迟敏感。大部分推理场景下,用户对模型响应的第一个Token时间非常敏感,因此互联延迟成为关键指标。
第四是存储与数据调度更复杂。超节点之间需要高效共享KV Cache等数据,对统一存储架构和跨节点数据调度提出了新要求。
同时,互联方式正在发生转变,光互联正成为未来超节点的关键趋势。随着节点规模扩大,电互联的距离限制凸显,光互联和新型网络架构将成为必然选择。
未来,推理集群的规模还可能进一步扩大,对互联协议、网络调度以及软硬件协同都将提出更高要求。

写在最后

从谷歌提出“高带宽域”,到今天国产超节点方案百花齐放;从训练主导到推理爆发,从电互联到光互联......超节点不仅是硬件的升级,更是整个AI基础设施在架构、协议、生态上的系统性演进。
正如祝俊东所言,“超节点正在重新定义算力的组织方式”。在这场由效能驱动的竞赛中,国产芯片企业能否在互联层实现关键技术突破,将直接影响中国智算集群的竞争力与自主可控程度。
奇异摩尔推出的Kiwi G2G IOD互联芯粒,正是这一进程中的一次重要尝试。它不仅是技术产品,更是一种生态倡议——推动开放、通用、可迭代的互联标准,助力国产AI算力走出“堆卡易,联卡难”的困境。
未来已来,在这场没有终点的算力长征中,互联,或许正是下一个决胜之地。

- END -本文内容资料源自公告及媒体公开报道,不构成任何投资建议,如有任何问题,敬请读者与我们联系info@gsi24.com。

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录