• 正文
  • 相关推荐
申请入驻 产业图谱

Blackwell GPU产品演进及参数分析

05/26 09:25
2568
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

Blackwell架构与技术创新

    先进制造工艺:采用 3nm 或 4nm 先进制程工艺,晶体管密度大幅提高,从而在相同芯片面积上集成更多的核心与功能,为性能提升和功耗降低奠定了基础。

优化的 CUDA 核心设计:CUDA 核心经过重新设计,对于混合精度计算的吞吐量显著提升,更好地满足 AI机器学习任务中大量的混合精度运算需求。

新一代光线追踪技术:专用的光线追踪(RT)核心算法得到改进,能够更快速、准确地生成逼真的光线追踪效果,如实时的光影、反射和阴影等,提升了图形渲染的真实感。

DLSS 升级:推出了新一代的深度学习超级采样(DLSS)技术,利用 AI 对低分辨率图像进行实时上采样,在不损失视觉质量的前提下,有效提高游戏帧率。

性能提升

算力大幅增强:以 B200 为例,相比 Hopper 系列的 H100,FP16/BF16 算力从 989TFlops 升级到 2250TFlops,提升了 2.25 倍;FP8 算力从 1979TFlops 升级到 4500TFlops。

内存带宽显著增加:从 Hopper 系列 H100 的 3.4TB/s 和 H200 的 4.8TB/s 增加到 Blackwell 系列的 8.0TB/s,更高的内存带宽直接提高了推理吞吐量和交互性,使 GPU 在处理大规模数据和复杂模型时更加高效。

NVLink 升级:从 Hopper 的 NVLink Gen4 双向 50GB/s 升级到 Blackwell 的 Gen5 双向带宽 100GB/s,同样是 18 个 NVLink 端口,总双向带宽达到 1800GB/s,大大增强了多 GPU 之间的通信速度和协同工作能力。

产品形态丰富

GB200 Superchip:包含一个 Grace 72 核的 ARM CPU 和 2 个 B200,拥有 384GB 的 GPU 内存,带宽为 16TB/s,通过 NVLink C2C 实现 CPU 与 GPU 900GB/s 带宽互联,在 AI 计算方面具有强大的性能。

GB200 NVL2:包含 2 块 Grace CPUs 和 2 块 B200 GPU,采用风冷设计,基于 NVIDIA MGX 平台实现单节点 2 块 B200 GPU,适用于对散热要求较高的场景。

GB200 NVL4:为低功耗的单服务器解决方案,集成了 4 个 B200 和 2 个 Grace CPU,总共包含 1.3TB 的一致性内存,相比 GH200 NVL4,GPU 整体性能提升 2.2 倍,训练性能提升 1.8 倍。

GB200 NVL72:扩展为机架规模,单个机架包含 72 个 B200 芯片全互联,具备强大的计算能力和高速的互联网络,适用于大规模的 AI 训练和推理任务。

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录