首曝！国产GPU单卡算力突破1000 TFlops，对标H100

2026 年 2 月 12 日智谱新一代大模型 GLM-5 正式发布，摩尔线程旗舰级 AI 训推一体全功能 GPU MTT S5000 即刻完成 Day-0 全流程适配与验证。

这款 2024 年推出的专为大模型训练、推理及高性能计算设计的智算卡，不仅实现了对国际顶尖 GPU 的对标与超越，更以精度、算力、效率的多重突破，为国产 AI 算力底座建设树立了全新标杆。

作为摩尔线程的重磅力作，MTT S5000 的硬件参数尽显旗舰本色。基于第四代 MUSA 架构 “平湖” 打造，其单卡 AI 算力（FP8）最高可达 1 PFLOPS（1000 TFLOPS），配备 80GB 大显存，显存带宽达 1.6TB/s，卡间互联带宽 784GB/s，完整支持从 FP8 到 FP64 的全精度计算，硬件规格直追国际主流旗舰产品。

更值得关注的是，据接近测试项目的行业人士透露，MTT S5000 在产品精度上已实现对英伟达 H100 的超越，更贴近其最新的 Blackwell 架构，成为国产 GPU 在精度领域的重大突破。

精度的优势在实际训练中得到充分印证。

2026 年 1 月，智源研究院基于 MTT S5000 千卡集群完成数千亿参数的前沿具身大脑模型 RoboBrain 2.5 端到端训练与对齐验证，该卡展现出与 H100 集群极高的结果一致性，训练损失值（loss）差异仅为 0.62%，模型关键指标误差维持在千分之几的范围内，整体训练效果甚至实现小幅超越。在 CrossPoint、Q-Spatial 等具体任务中，MTT S5000 训练的模型表现更优，彻底打破了 “国产芯片只能推理、难以支撑顶尖大模型训练” 的行业认知，证明国产算力已具备与国际一流水准同台竞技的能力。

（图源：摩尔线程官网）

在算力性能与实际场景表现上，MTT S5000 同样交出亮眼答卷。

另据互联网厂商的实测反馈，该卡在典型端到端推理及训练任务中，性能可达竞品 H20 的 2.5 倍左右。这一优势的核心，源于其高达 1000 TFLOPS 的单卡算力输出，以及针对 AI 计算的全方位技术优化。作为国内最早原生支持 FP8 精度的训练 GPU 之一，MTT S5000 配备硬件级 FP8 Tensor Core 加速单元，相比传统 BF16/FP16，将数据位宽减半、显存带宽压力降低 50%、理论计算吞吐量翻倍，可提升 30% 以上的训练性能，在计算密集型场景中实现算力的高效释放，同时兼具更高的性价比。

为了将硬件算力充分转化为实际性能，MTT S5000 在架构与技术层面进行了多重创新。其独创的 ACE 异步通信引擎，将复杂通信任务从计算核心中卸载，实现物理级的 “通信计算重叠”，有效释放 15% 的通信被占算力，配合细粒度重计算技术，大幅提升系统吞吐量；从 64 卡扩展至 1024 卡，系统能保持 90% 以上的线性扩展效率，训练速度随算力增加近乎同步倍增。依托 MUSA 全栈软件平台，MTT S5000 原生适配 PyTorch、Megatron-LM、SGLang 等主流框架，实现 “零成本” 代码迁移，兼容 CUDA 生态，让开发者无需额外适配即可高效使用。

（图源：摩尔线程官网）

基于 MTT S5000 构建的夸娥万卡集群已成功落地，其浮点运算能力达 10 Exa-Flops，在 Dense 模型训练中 MFU（模型算力利用率）达 60%，MoE 模型中维持 40% 左右，有效训练时间占比超 90%，训练线性扩展效率达 95%，Flash Attention 算力利用率更是超过 95%，多项关键指标均达到国际主流水平。在推理场景中，MTT S5000 同样刷新国产 GPU 纪录，2025 年 12 月与硅基流动合作完成的 DeepSeek-V3 671B 满血版适配测试中，其单卡 Prefill 吞吐超 4000 tokens/s，Decode 吞吐超 1000 tokens/s，展现出训推一体的全能实力。

此次与 GLM-5 的快速适配，更是 MTT S5000 软硬协同能力的集中体现。

借助 SGLang 推理框架，摩尔线程成功打通 GLM-5 推理全链路，深度释放原生 FP8 加速能力，在确保模型精度的同时降低显存占用，实现高性能推理。而 GLM-5 作为全球第四、开源第一的顶尖 Coding 模型，整体性能较上一代提升 20%，具备强大的 Agentic Engineering 能力，二者的国产双强联合，在函数补全、漏洞检测、Debug 等场景中表现卓越，为开发者带来对标国际顶尖水平的编程体验，从容应对复杂长程开发任务。

从 GLM-4.6、GLM-4.7 到 GLM-5，摩尔线程已将 “发布即适配” 化为常态，而 MTT S5000 在精度、算力、效率、生态等方面的全面突破，不仅印证了 MUSA 软件栈的成熟度与国产全功能 GPU 的技术实力，更打破了国际 GPU 在高端 AI 算力领域的垄断。在 AI 大模型向更复杂、更大参数演进的背景下，MTT S5000 的出现，为国产 AI 产业提供了可靠、高效、高性价比的算力选择，也为国产 GPU 的发展奠定了坚实基础，推动中国 AI 生态朝着自主、可控、蓬勃的方向持续前进。

声明：本文仅为信息交流之用，不构成任何投资建议，股市有风险，投资需谨慎。

首曝！国产GPU单卡算力突破1000 TFlops，对标H100

相关推荐