中科曙光6万卡AI4S集群落地郑州，超智融合开启科研范式革命

当复杂系统由大量微小个体构成并相互作用时，一旦数量跨越临界值，宏观层面便会展现出微观个体无法解释的“涌现”现象。

对于大型语言模型而言，规模达到100B后，多步骤的复杂任务处理能力将急剧增长。在训练过程中，模型会经历从记忆期、平台期到“顿悟（Grokking）”的泛化飞跃，突然掌握任务规律。

这种智能潜力在生物模拟领域已得到有力印证。美国Eon Systems公司的研究人员通过电子显微镜逐层扫描果蝇大脑，成功将果蝇大脑的12.5万个神经元与5000万个突触连接完整数字化，并接入虚拟果蝇躯壳，这只“数字果蝇”在无预设路径的情况下展现出了完全的自主行走与觅食行为。这一成果暗示着，当连接数量足够庞大、结构足够精细，智能甚至意识或许真的可以从数字世界中涌现出来。

图源：与非网摄制

然而，人工智能的跨越式发展对底层硬件的性能与规模提出了近乎苛刻的要求。

在国际舞台上，英伟达（NVIDIA）推出的GB200芯片通过集成Grace CPU与两颗B200 GPU，将性能提升了30倍，并能组合成拥有72颗B200的AI超级计算机，支撑起高达27万亿参数的模型部署。

面对全球算力竞赛，国内厂商正积极寻求跟进与突破，通过重构优化器、注意力机制及残差连接等底层基石，力求在超大规模训练中持续突破智能上限。

与此同时，随着AI应用的深化，智能计算已成为超级计算在新时代的自然延展。两者的演进具有明确的必要性：传统超算聚焦于科学工程领域，以数学物理方程为核心的确定性高精度计算为主；而智算则延展至视觉理解、自然语言处理等场景，转向基于神经网络算法的概率性计算。

这种转变促使计算范式从单一的“确定性”向“超智融合”演进，通过混合精度和海量非结构化数据的处理能力，支撑起处理更高维问题的科研需求。

当前，AI for Science (AI4S) 已成为全球科研范式变革的核心及战略博弈焦点。从 AlphaFold 预测蛋白质结构到新材料的发现，AI正在重塑创新链条，并上升为国家战略。为此，美国推出了“创世纪”计划，整合国家实验室资源建设统一的AI科学实验平台；欧盟发布了《应用AI战略》和《欧洲科学AI战略》，计划年度AI投资增至30亿欧元；我国则将“人工智能+科学技术”列为“人工智能+”行动的六大重点行动之一。

图源：与非网摄制

在这场竞争中，计算集群被提出了六大核心要求：强大算力以支持万亿参数模型训练、全面精度以满足多源多样化任务、高速互连以支撑分布式并行计算、存算协同以避免存储IO瓶颈、灵活调度以智能匹配资源、稳定可靠以保障长周期运行。

在此背景下，中科曙光提供的6万卡AI4S计算集群系统于4月14日在位于郑州的国家超算互联网核心节点投入使用。

作为国内最大的AI4S计算集群，它实现了6万卡集群部署，提供全球顶级的超智融合算力，支持8/16/32/64位宽的全精度计算。通过国内首款类InfiniBand无损高速网络scaleFabric系列产品，满足了对高带宽、低时延网络的极致需求；“超级隧道”和AI数据加速设计则实现了从芯片、系统到应用的三层传输协同。集群的智能化运维、数字孪生系统以及浸没相变液冷技术，让系统可用性达到99.99%。

计算集群的落地反过来推动了超算体系结构从“简单异构”向“层次化异构”的迭代演进，实现了系统级创新与软硬件协同的工程化落地。

中科曙光高级副总裁李斌指出，通过系统级创新与软硬件协同设计，AI4S计算集群不仅硬件性能出众，更兼容主流计算生态及广泛科研应用迭代支持，全面打破传统超算与智算的壁垒。

在实际应用中，集群已在多个领域取得突出成果：3万卡规模蛋白质折叠模拟较传统算法加速1000倍；4.5万卡规模实现万亿原子液态水分子动力学模拟，在打破世界模拟规模纪录的同时更让效率提升3个数量级以上；助力湍流直接模拟规模扩展至百万亿网格，大幅提升科研效率。

图源：与非网摄制

具体到研究机构的深度适配，上海交通大学人工智能学院林洲汉团队在开发“动态深思大模型”的过程中，与中科曙光AI4S计算集群进行了紧密协作。

传统大模型对所有词元分配固定算力，造成资源浪费，而团队发现引入动态递归机制，根据难度自动分配计算步数，可以获得更陡峭的ScalingLaw曲线。

早期该项目是在英伟达平台上进行训练的，当中科曙光AI4S计算集群投入使用后，团队开始将训练代码无缝迁移至中科曙光AI4S计算集群。基于PonderLM-3 LLaMA 70M模型的预训练实验表明，中科曙光AI4S计算集群与A800集群上的训练Loss下降曲线高度重合，二者在训练过程中展现出完全一致的收敛趋势。在 PonderLM-2 Pythia-1.4B 模型的下游任务评测中中科曙光AI4S计算集群相比英伟达 A800集群训练出的模型，在9项基准测试上的结果也高度一致。

清华大学智能产业研究院李琨团队则从更宏观的视角审视了这一集群的价值。他指出，科学应用跨越30个数量级的尺度，对计算扩展性提出极高要求——而“好”的扩展性意味着每增加一份资源，性能就能近乎成比例提升，科学探索得以扩展到更大尺度；“差”的扩展性则会让科研进展受限。

AI的扩展性之所以“好”，在于工作负载高度规划、以矩阵运算为主，硬件映射效率高，额外算力能够较直接地转化为模型能力。中科曙光AI4S计算集群正是将这一逻辑带入了传统科学计算领域，让材料模拟、量子化学计算等传统HPC应用也能够享受到“好扩展”带来的红利。

综上，当算力规模跨越临界点，当超算与智算深度融合，当自主可控的芯片与系统形成闭环，人工智能驱动科学研究的范式变革正在从理论走向实践。中科曙光在该计算集群上展示了从万卡到六万卡的工程化部署能力，其技术路径也在多个学科领域得到了初步验证。