2026 年 2 月 12 日智谱新一代大模型 GLM-5 正式发布,摩尔线程旗舰级 AI 训推一体全功能 GPU MTT S5000 即刻完成 Day-0 全流程适配与验证。
这款 2024 年推出的专为大模型训练、推理及高性能计算设计的智算卡,不仅实现了对国际顶尖 GPU 的对标与超越,更以精度、算力、效率的多重突破,为国产 AI 算力底座建设树立了全新标杆。
作为摩尔线程的重磅力作,MTT S5000 的硬件参数尽显旗舰本色。基于第四代 MUSA 架构 “平湖” 打造,其单卡 AI 算力(FP8)最高可达 1 PFLOPS(1000 TFLOPS),配备 80GB 大显存,显存带宽达 1.6TB/s,卡间互联带宽 784GB/s,完整支持从 FP8 到 FP64 的全精度计算,硬件规格直追国际主流旗舰产品。
更值得关注的是,据接近测试项目的行业人士透露,MTT S5000 在产品精度上已实现对英伟达 H100 的超越,更贴近其最新的 Blackwell 架构,成为国产 GPU 在精度领域的重大突破。
精度的优势在实际训练中得到充分印证。
2026 年 1 月,智源研究院基于 MTT S5000 千卡集群完成数千亿参数的前沿具身大脑模型 RoboBrain 2.5 端到端训练与对齐验证,该卡展现出与 H100 集群极高的结果一致性,训练损失值(loss)差异仅为 0.62%,模型关键指标误差维持在千分之几的范围内,整体训练效果甚至实现小幅超越。在 CrossPoint、Q-Spatial 等具体任务中,MTT S5000 训练的模型表现更优,彻底打破了 “国产芯片只能推理、难以支撑顶尖大模型训练” 的行业认知,证明国产算力已具备与国际一流水准同台竞技的能力。
(图源:摩尔线程官网)
在算力性能与实际场景表现上,MTT S5000 同样交出亮眼答卷。
另据互联网厂商的实测反馈,该卡在典型端到端推理及训练任务中,性能可达竞品 H20 的 2.5 倍左右。这一优势的核心,源于其高达 1000 TFLOPS 的单卡算力输出,以及针对 AI 计算的全方位技术优化。作为国内最早原生支持 FP8 精度的训练 GPU 之一,MTT S5000 配备硬件级 FP8 Tensor Core 加速单元,相比传统 BF16/FP16,将数据位宽减半、显存带宽压力降低 50%、理论计算吞吐量翻倍,可提升 30% 以上的训练性能,在计算密集型场景中实现算力的高效释放,同时兼具更高的性价比。
为了将硬件算力充分转化为实际性能,MTT S5000 在架构与技术层面进行了多重创新。其独创的 ACE 异步通信引擎,将复杂通信任务从计算核心中卸载,实现物理级的 “通信计算重叠”,有效释放 15% 的通信被占算力,配合细粒度重计算技术,大幅提升系统吞吐量;从 64 卡扩展至 1024 卡,系统能保持 90% 以上的线性扩展效率,训练速度随算力增加近乎同步倍增。依托 MUSA 全栈软件平台,MTT S5000 原生适配 PyTorch、Megatron-LM、SGLang 等主流框架,实现 “零成本” 代码迁移,兼容 CUDA 生态,让开发者无需额外适配即可高效使用。
(图源:摩尔线程官网)
基于 MTT S5000 构建的夸娥万卡集群已成功落地,其浮点运算能力达 10 Exa-Flops,在 Dense 模型训练中 MFU(模型算力利用率)达 60%,MoE 模型中维持 40% 左右,有效训练时间占比超 90%,训练线性扩展效率达 95%,Flash Attention 算力利用率更是超过 95%,多项关键指标均达到国际主流水平。在推理场景中,MTT S5000 同样刷新国产 GPU 纪录,2025 年 12 月与硅基流动合作完成的 DeepSeek-V3 671B 满血版适配测试中,其单卡 Prefill 吞吐超 4000 tokens/s,Decode 吞吐超 1000 tokens/s,展现出训推一体的全能实力。
此次与 GLM-5 的快速适配,更是 MTT S5000 软硬协同能力的集中体现。
借助 SGLang 推理框架,摩尔线程成功打通 GLM-5 推理全链路,深度释放原生 FP8 加速能力,在确保模型精度的同时降低显存占用,实现高性能推理。而 GLM-5 作为全球第四、开源第一的顶尖 Coding 模型,整体性能较上一代提升 20%,具备强大的 Agentic Engineering 能力,二者的国产双强联合,在函数补全、漏洞检测、Debug 等场景中表现卓越,为开发者带来对标国际顶尖水平的编程体验,从容应对复杂长程开发任务。
从 GLM-4.6、GLM-4.7 到 GLM-5,摩尔线程已将 “发布即适配” 化为常态,而 MTT S5000 在精度、算力、效率、生态等方面的全面突破,不仅印证了 MUSA 软件栈的成熟度与国产全功能 GPU 的技术实力,更打破了国际 GPU 在高端 AI 算力领域的垄断。在 AI 大模型向更复杂、更大参数演进的背景下,MTT S5000 的出现,为国产 AI 产业提供了可靠、高效、高性价比的算力选择,也为国产 GPU 的发展奠定了坚实基础,推动中国 AI 生态朝着自主、可控、蓬勃的方向持续前进。
声明:本文仅为信息交流之用,不构成任何投资建议,股市有风险,投资需谨慎。
237