扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

算力江湖,风云再起:国产GPU单卡算力突破1000TFLOPS

3小时前
369
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

”在GLM-5发布的同日,摩尔线程祭出“算力核弹”:MTT S5000正式披露,单卡FP8算力突破1000 TFLOPS!凭借原生FP8支持与自研“平湖”架构,这款国产智算卡在多项实测中精准对标、甚至部分超越了国际旗舰H100。

MTT S5000由摩尔线程在2024年推出,专为大模型训练、推理及高性能计算而设计,是可以对标国际旗舰水准的训推一体全功能GPU智算卡。

硬核参数:单卡跨入“P级”时代

MTT S5000是摩尔线程专为大模型“训推一体”设计的全功能GPU。

其核心参数首次官宣:

算力巅峰: 单卡AI算力(FP8)最高达 1 PFLOPS(1000 TFLOPS)。

内存容量:80GB 大显存 + 1.6TB/s 超高带宽。

互联速度: 卡间带宽达 784GB/s,专为万卡集群而生。

业内人士表示MTT S5000实测性能对标H100在多模态大模型微调任务中,部分性能甚至超越H100

 

技术微课: 相比传统BF16,FP8位宽减半,显存压力降低50%,理论计算吞吐量直接翻倍!S5000内置硬件级FP8加速单元,这让它在大模型训练中能提升 30%以上 的性能。

架构与生态:

算力只是基础,生态才是灵魂。S5000搭载第四代MUSA架构“平湖”:

丝滑迁移: 原生适配 PyTorch、Megatron-LM、vLLM、SGLang 等主流框架。

兼容CUDA: 依托MUSA全栈软件平台,用户可实现代码“零成本”迁移。

模型全覆盖: 深度优化 DeepSeek、Qwen 等开源架构。

实测见真章:不仅是对标,更是超越。

数据从不撒谎。在多个重量级落地案例中,S5000展现了极强的实战能力:

1️⃣ 具身智能:与H100训练误差仅0.62%

2026年1月,智源研究院在S5000千卡集群上完成了具身大脑模型 RoboBrain 2.5 的端到端训练。

结果显示: 与H100集群结果高度重合,Loss值差异极小,验证了国产算力的可靠性。

2️⃣ 推理极限:刷新国产GPU纪录

2025年12月,联合硅基流动完成 DeepSeek-V3 671B 满血版适配:

Prefill吞吐: > 4000 tokens/s

Decode吞吐: > 1000 tokens/s

这一成绩直接刷新了国产GPU的推理速度天花板。

万卡集群:10 Exa-Flops 的澎湃动力

基于S5000构建的夸娥万卡集群已正式落地。通过独创的 ACE通信卸载技术,解决了计算与通信的“打架”问题。

指标维度 表现数据
浮点运算能力 10 Exa-Flops
训练有效时间 > 90%
线性扩展效率 95% (64卡至1024卡保持90%+)
Flash Attention算力利用率 > 95%

结语

从“可以用”到“好用”,再到“精准对标国际旗舰”,国产GPU正在加速跨越深水区。MTT S5000的登场,不仅是算力数值的突破,更是国产AI基座向全生态、高性能、规模化进军的信号弹。

中国算力,未来可期!

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录