本文参考自“智算中心基础设施演进白皮书(精华版)”,“智能数据中心网络建设技术要求”和“新兴AI数据中心网络架构与应用:从传统前段到驱动AI的后端”。
人工智能计算中心提供训练算力和推理算力。人工智能计算中心多机柜联网形成AI集群。按照服务类型及安全等级,把整个网络分成不同的业务区块:接入区、管理区、业务区。各区块间通过核心交换机连接在一起,不同类型的流量,可根据数据中心的实际情况进行隔离和保护。
通用人工智能计算中心总体逻辑网络拓扑如图所示,包括如下不同的业务区块:
接入区:Internet和专线网络接入,部署数据中心的外网接入设备。
安全服务区:提供DDoS、入侵检测等安全防护能力。
网络服务区:提供网络基础服务,例如vRouter、vLB、vFW等。
管理区:部署平台的服务管理系统及运维管理支持组件,用于维护管理数据中心的AI服务器、通用服务器、存储设备和网络交换机设备等。根据客户部署实践,部分运维管理组件也可以部署在带外管理区。
带外管理区:主要连接网络区设备管理口以及服务器BMC口,为物理设备提供带外管理网络。该网络除物理设备管理流量外不承载其他业务流量。
AI计算集群区:AI服务器宜集成NPU,CPU,DPU,实现一体架构的AI计算节点,其中DPU要求支持带有RDMA网络卸载加速的能力,为AI计算集群之间的集合通信提供高性能无损AI计算集群网络,实现AI高性能计算。
通用计算区:提供AI训练相关的通用计算资源,例如部署深度学习平台等软件。
存储区:高速大带宽互联的存储系统,AI场景下主要用于训练数据和训练模型的存储,存储节点可通过支持存储协议加速和加解密能力的DPU网卡进行赋能,以满足AI训练场景中对于训练样本与模型的高性能安全传输。
物理架构
为应对挑战,智算数据中心网络架构进行了优化,如图所示,划分为参数面、样本面、业务面,及管理面四个网络平面:
参数面网络:承担模型训练过程中AI计算节点之间参数交换的流量,是影响智算集群算力的关键网络要素,要求部署1:1收敛比的高带宽、大规模智能无损以太网络,网络架构可选CLOS二层、CLOS三层组网架构,在考虑支撑大规模组网、减少网络层次以节省设备开销、避免流量绕行减少路由复杂度等因素影响时,也可选择DragonFly+、Group-wise DragonFly+等二层扁平化组网架构。参数面网络要求达成网络规模、网络高吞吐、高可靠性、智能运维等的关键技术能力要求。
样本面网络:承担模型训练过程中AI计算节点访问存储系统的流量,如样本数据的读取、Checkpoint的读写等,随着模型扩展,样本面网络要求支持大带宽、低时延、智能无损以太网络RoCE。样本面网络通常采用两层CLOS组网,接入交换机宜采用1:1无收敛组网,并根据业务要求选择合适的算存比。样本面网络同样要求达成可靠性的关键技术能力要求。
业务面网络:承担系统业务调度与带内管理流量,采用多层CLOS组网,通常部署为TCP/IP有损网络,对可靠性有要求。
带外管理面网络:承担集群设备(包括服务器、交换机、防火墙等)的带外管理流量,接口速率以千兆为主,通常采用接入-汇聚层次化组网,可以采用较高的收敛比,并对可靠性有要求。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
9222