AI 算力正在以肉眼可见的速度不断攀升
从大模型训练到推理部署,从单卡性能比拼到整机柜、整集群的系统能力竞争,AI 基础设施的演进,早已不再只是“芯片性能”的问题。
在实际工程中,一个共识正在形成:算力越往上走,系统越难做。
当功耗迈入千瓦级、互联速率进入 800G / 1.6T 时代,真正制约 AI 服务器稳定运行的,往往是两类被低估的“底层问题”。它们不在发布会的聚光灯下,却决定着算力能否被真正释放。
在最新两期《科技叨叨叨》中,我们正是从工程视角,围绕这些底层挑战展开了一次系统讨论。
一、数据怎么跑得“又快又好”?
随着 AI 服务器从通用计算走向超高密度算力集群,内部互联发生了根本变化:
•速率飙升:速率从 400G → 800G → 1.6T
•单通道极限:单通道速率从 112Gbps 提升至 224Gbps甚至448Gbps
•集群吞吐:单机柜带宽突破 10TB/s
有源线缆,正在成为主角。视频中,嘉宾系统梳理了当前高速线缆的四大类型:
•AOC(有源光缆)
•DAC(无源铜缆)
•ACC(带 Re-driver 的有源铜缆)
•AEC(带 Re-timer 的有源铜缆)
其中,有源铜缆(ACC / AEC)正在成为 AI 服务器中短距离通信的重要部分。更多有源铜缆的市场趋势及关键技术,还请戳下方视频观看:
二、算力越大,服务器为什么越来越“热”?
在 AI 液冷主题视频中,一组数字揭示了散热面临的严峻挑战:
•单颗 AI 芯片功耗已达 1200–1400W
•下一代架构甚至可能逼近 2000W+
•单机柜功耗,正在向 600kW 演进
而传统风冷的极限,通常只有 20–40kW。
️结论只有一个:液冷不是“要不要”,而是“必须要”。AI 液冷,不只是“把热带走”那么简单,目前主流的液冷方案包括:
•冷板式液冷:改造相对小,逐步落地
•浸没式液冷:效率极高,但对系统与材料要求更严苛
真正的技术难点,反而藏在“看不见”的地方:
•液体环境下的 高速信号完整性
•PCIe 5.0 / 6.0、高速链路的误码与降速风险
也正因如此,液冷技术的发展,已经从“散热方案”升级为 材料与电气性能协同的工程问题。那液冷测试参数的详细分析有哪些?
394