算力江湖，风云再起：国产GPU单卡算力突破1000TFLOPS

”在GLM-5发布的同日，摩尔线程祭出“算力核弹”：MTT S5000正式披露，单卡FP8算力突破1000 TFLOPS！凭借原生FP8支持与自研“平湖”架构，这款国产智算卡在多项实测中精准对标、甚至部分超越了国际旗舰H100。

MTT S5000由摩尔线程在2024年推出，专为大模型训练、推理及高性能计算而设计，是可以对标国际旗舰水准的训推一体全功能GPU智算卡。

硬核参数：单卡跨入“P级”时代

MTT S5000是摩尔线程专为大模型“训推一体”设计的全功能GPU。

其核心参数首次官宣：

算力巅峰： 单卡AI算力（FP8）最高达 1 PFLOPS（1000 TFLOPS）。

内存容量：80GB 大显存 + 1.6TB/s 超高带宽。

互联速度： 卡间带宽达 784GB/s，专为万卡集群而生。

业内人士表示MTT S5000实测性能对标H100，在多模态大模型微调任务中，部分性能甚至超越H100。

技术微课： 相比传统BF16，FP8位宽减半，显存压力降低50%，理论计算吞吐量直接翻倍！S5000内置硬件级FP8加速单元，这让它在大模型训练中能提升 30%以上 的性能。

算力只是基础，生态才是灵魂。S5000搭载第四代MUSA架构“平湖”：

丝滑迁移： 原生适配 PyTorch、Megatron-LM、vLLM、SGLang 等主流框架。

兼容CUDA： 依托MUSA全栈软件平台，用户可实现代码“零成本”迁移。

模型全覆盖： 深度优化 DeepSeek、Qwen 等开源架构。

2026年1月，智源研究院在S5000千卡集群上完成了具身大脑模型 RoboBrain 2.5 的端到端训练。

结果显示：与H100集群结果高度重合，Loss值差异极小，验证了国产算力的可靠性。

2️⃣ 推理极限：刷新国产GPU纪录

2025年12月，联合硅基流动完成 DeepSeek-V3 671B 满血版适配：

Prefill吞吐： > 4000 tokens/s

Decode吞吐： > 1000 tokens/s

这一成绩直接刷新了国产GPU的推理速度天花板。

基于S5000构建的夸娥万卡集群已正式落地。通过独创的 ACE通信卸载技术，解决了计算与通信的“打架”问题。

从“可以用”到“好用”，再到“精准对标国际旗舰”，国产GPU正在加速跨越深水区。MTT S5000的登场，不仅是算力数值的突破，更是国产AI基座向全生态、高性能、规模化进军的信号弹。

中国算力，未来可期！