”在GLM-5发布的同日,摩尔线程祭出“算力核弹”:MTT S5000正式披露,单卡FP8算力突破1000 TFLOPS!凭借原生FP8支持与自研“平湖”架构,这款国产智算卡在多项实测中精准对标、甚至部分超越了国际旗舰H100。
MTT S5000由摩尔线程在2024年推出,专为大模型训练、推理及高性能计算而设计,是可以对标国际旗舰水准的训推一体全功能GPU智算卡。
硬核参数:单卡跨入“P级”时代
MTT S5000是摩尔线程专为大模型“训推一体”设计的全功能GPU。
其核心参数首次官宣:
算力巅峰: 单卡AI算力(FP8)最高达 1 PFLOPS(1000 TFLOPS)。
内存容量:80GB 大显存 + 1.6TB/s 超高带宽。
互联速度: 卡间带宽达 784GB/s,专为万卡集群而生。
业内人士表示MTT S5000实测性能对标H100,在多模态大模型微调任务中,部分性能甚至超越H100。
技术微课: 相比传统BF16,FP8位宽减半,显存压力降低50%,理论计算吞吐量直接翻倍!S5000内置硬件级FP8加速单元,这让它在大模型训练中能提升 30%以上 的性能。
架构与生态:
算力只是基础,生态才是灵魂。S5000搭载第四代MUSA架构“平湖”:
丝滑迁移: 原生适配 PyTorch、Megatron-LM、vLLM、SGLang 等主流框架。
兼容CUDA: 依托MUSA全栈软件平台,用户可实现代码“零成本”迁移。
模型全覆盖: 深度优化 DeepSeek、Qwen 等开源架构。
实测见真章:不仅是对标,更是超越。
数据从不撒谎。在多个重量级落地案例中,S5000展现了极强的实战能力:
1️⃣ 具身智能:与H100训练误差仅0.62%
2026年1月,智源研究院在S5000千卡集群上完成了具身大脑模型 RoboBrain 2.5 的端到端训练。
结果显示: 与H100集群结果高度重合,Loss值差异极小,验证了国产算力的可靠性。
2️⃣ 推理极限:刷新国产GPU纪录
2025年12月,联合硅基流动完成 DeepSeek-V3 671B 满血版适配:
Prefill吞吐: > 4000 tokens/s
Decode吞吐: > 1000 tokens/s
这一成绩直接刷新了国产GPU的推理速度天花板。
万卡集群:10 Exa-Flops 的澎湃动力
基于S5000构建的夸娥万卡集群已正式落地。通过独创的 ACE通信卸载技术,解决了计算与通信的“打架”问题。
| 指标维度 | 表现数据 |
| 浮点运算能力 | 10 Exa-Flops |
| 训练有效时间 | > 90% |
| 线性扩展效率 | 95% (64卡至1024卡保持90%+) |
| Flash Attention算力利用率 | > 95% |
结语
从“可以用”到“好用”,再到“精准对标国际旗舰”,国产GPU正在加速跨越深水区。MTT S5000的登场,不仅是算力数值的突破,更是国产AI基座向全生态、高性能、规模化进军的信号弹。
中国算力,未来可期!
369