• 正文
  • 相关推荐
申请入驻 产业图谱

AI算力越往上走,越绕不开这两个底层问题

12/25 11:30
394
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

AI 算力正在以肉眼可见的速度不断攀升

大模型训练到推理部署,从单卡性能比拼到整机柜、整集群的系统能力竞争,AI 基础设施的演进,早已不再只是“芯片性能”的问题。

在实际工程中,一个共识正在形成:算力越往上走,系统越难做。

当功耗迈入千瓦级、互联速率进入 800G / 1.6T 时代,真正制约 AI 服务器稳定运行的,往往是两类被低估的“底层问题”。它们不在发布会的聚光灯下,却决定着算力能否被真正释放。

在最新两期《科技叨叨叨》中,我们正是从工程视角,围绕这些底层挑战展开了一次系统讨论。

一、数据怎么跑得“又快又好”?

随着 AI 服务器从通用计算走向超高密度算力集群,内部互联发生了根本变化:

速率飙升:速率从 400G → 800G → 1.6T

单通道极限:单通道速率从 112Gbps 提升至 224Gbps甚至448Gbps

集群吞吐:单机柜带宽突破 10TB/s

这意味着:线缆不再只是一条线,而是信号完整性的关键一环。

有源线缆,正在成为主角。视频中,嘉宾系统梳理了当前高速线缆的四大类型:

AOC(有源光缆

DAC(无源铜缆)

ACC(带 Re-driver 的有源铜缆)

AEC(带 Re-timer 的有源铜缆)

其中,有源铜缆(ACC / AEC)正在成为 AI 服务器中短距离通信的重要部分。更多有源铜缆的市场趋势及关键技术,还请戳下方视频观看:

二、算力越大,服务器为什么越来越“热”?

在 AI 液冷主题视频中,一组数字揭示了散热面临的严峻挑战:

单颗 AI 芯片功耗已达 1200–1400W

下一代架构甚至可能逼近 2000W+

单机柜功耗,正在向 600kW 演进

而传统风冷的极限,通常只有 20–40kW。

️结论只有一个:液冷不是“要不要”,而是“必须要”。AI 液冷,不只是“把热带走”那么简单,目前主流的液冷方案包括:

冷板式液冷:改造相对小,逐步落地

浸没式液冷:效率极高,但对系统与材料要求更严苛

真正的技术难点,反而藏在“看不见”的地方:

冷却液的 介电常数介质损耗

液体环境下的 高速信号完整性

PCIe 5.0 / 6.0、高速链路的误码与降速风险

也正因如此,液冷技术的发展,已经从“散热方案”升级为 材料与电气性能协同的工程问题。那液冷测试参数的详细分析有哪些?

相关推荐