• 正文
  • 相关推荐
申请入驻 产业图谱

AI数据中心正在撞上“三堵墙”: 为什么高速系统设计最终都会回到PI与SI?

1小时前
26
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

引言

过去几年,AI大模型的发展速度远远超出了传统数据中心架构的演进节奏。从GPT、多模态模型,到视频生成、Agent与具身智能,模型参数规模、训练数据量以及推理负载都在持续增长。与此同时,AI数据中心也正在从传统CPU时代快速进入GPU、AI Accelerator与高速互联时代。

当整个行业都在追求更高算力时,一个越来越明显的问题开始出现:真正限制AI数据中心继续扩展的,已经不再只是算力芯片数量,而是功耗墙、内存墙和带宽墙。高端AI GPU单卡功耗已经突破700W,单机柜功耗正在接近甚至超过100kW;HBM正在持续推动存储带宽增长;NVLink、InfiniBand、800G Ethernet以及PCIe Gen5/Gen6等高速互联技术不断提升系统吞吐能力。

然而,随着系统规模持续扩大,越来越多的问题开始暴露出来。很多工程师发现,系统稳定性、误码率以及一致性测试问题,往往并非来自协议本身,而是来自更底层的系统设计。最终,这些问题都会回到PI(Power Integrity)、SI(Signal Integrity)以及EMI(Electromagnetic Interference)之间的复杂耦合关系。

为什么越来越多高速问题的根源来自电源

在高速电路设计中,PI、SI与EMI看似属于不同领域,但在实际系统中却高度关联。业内逐渐形成一个共识:超过半数的SI问题,其根源来自电源质量问题;与此同时,大量EMI超标问题,本质上也来自PDN中的高频噪声。因此,高速设计领域逐渐形成了一条经验:先保障PI,再优化SI。

对于AI数据中心而言,这种关系尤为明显。随着GPU负载不断变化、供电密度不断提高以及高速互联持续升级,电源系统的任何波动都可能最终体现在信号质量上。

电源完整性(PI)测试:比想象中困难得多

PI的核心目标,是为系统提供稳定、洁净且可预测的供电环境。在AI数据中心中,GPU动态负载的剧烈变化、高密度供电架构以及HVDC系统的发展,都让PI测试的重要性持续提升。然而现实情况是,PI并不是单一测试,而是涵盖直流测试、交流测试、瞬态测试以及专项分析测试的一整套验证体系。任何一个环节缺失,都可能为后续量产埋下风险.

其中最典型的问题之一便是纹波测试。现代芯片供电容错率通常只有3%~5%,而高端芯片甚至已经低至1%。这意味着电源纹波往往必须控制在10~15mV范围内。然而在实际测试过程中,本底噪声、探头选型、耦合方式以及带宽限制都会影响最终结果。如果测试链路本身存在问题,那么测得的数据就很难真实反映系统状态。

除了纹波测试之外,TLVR阶跃负载测试也是PI验证中的关键环节。TLVR相比传统VRM能够实现约10mV的性能改善,但在传统测试环境下,仅地环路误差就可能高达27mV。

换句话说,测试误差甚至已经超过技术本身带来的改善幅度。如果无法准确控制测量链路,研发团队将很难判断系统性能是否真正得到提升。

信号完整性(SI):误码为什么越来越像“玄学”

对于很多高速工程师来说,最头疼的问题并不是发现误码,而是误码无法稳定复现。实验室通过,客户现场失败;室温正常,高温异常。这类问题在PCIe、DDRMIPI等高速系统中越来越常见。SI问题本质上主要来自两个方面:一是建立保持时间不足导致时序异常;二是信号幅度不足导致波形失真。对于DDR、MIPI等并行接口,工程师需要同时关注时序完整性与波形完整性;而对于PCIe、USB等串行接口阻抗匹配问题则成为核心挑战。

其中,抖动分析是整个SI验证过程中最复杂的部分之一。抖动(Jitter)本质上是信号相对于参考时钟的定时误差(TIE)。根据来源不同,可进一步分为随机抖动(RJ)和确定性抖动(DJ)。实际分析过程中通常需要借助双狄拉克模型进行分解,并结合直方图、眼图以及TIE分析完成信号裕度评估。

一致性测试:能够通信不代表能够量产

对于今天的高速系统而言,能够正常通信仅仅只是开始。真正决定产品是否能够量产的,是一致性测试。以MIPI C-PHY为例,完整标准测试项目达到43项。只要其中任何一项不符合规范,产品便无法通过认证。

这些测试不仅涉及抖动、眼图、电压以及时序等基础指标,还包含大量专项协议验证内容。随着PCIe、DDR、MIPI等标准持续升级,测试项目数量不断增加,人工测试效率越来越低,自动化测试能力开始成为研发效率的重要组成部分。

为什么AI数据中心会放大这些问题

如果说过去PI与SI已经足够复杂,那么AI数据中心进一步放大了所有挑战。为了突破功耗墙、内存墙以及带宽墙,系统必须引入HBM、PCIe Gen6、高速SerDes、800G Ethernet以及更复杂的供电架构。

然而,更高带宽意味着更高功耗;更高功耗意味着更复杂的供电系统;更复杂的供电系统又会进一步影响高速链路稳定性。因此,PI与SI不再是两个独立问题,而开始形成真正意义上的系统级耦合关系。

结语

AI数据中心的发展正在不断突破功耗、内存与带宽边界。随着GPU功率持续攀升、HBM带宽持续增长以及高速互联不断升级,系统设计挑战也正在从单一模块优化转向系统级协同优化。

对于今天的工程师而言,真正需要解决的问题已经不再是某一个高速接口是否能够正常工作,而是整个系统能否在高功率、高带宽以及高动态负载环境下持续稳定运行。这也正是为什么,PI与SI正在成为AI数据中心时代最关键的底层能力。

相关推荐