Blackwell架构与技术创新
优化的 CUDA 核心设计:CUDA 核心经过重新设计,对于混合精度计算的吞吐量显著提升,更好地满足 AI 和机器学习任务中大量的混合精度运算需求。
新一代光线追踪技术:专用的光线追踪(RT)核心算法得到改进,能够更快速、准确地生成逼真的光线追踪效果,如实时的光影、反射和阴影等,提升了图形渲染的真实感。
DLSS 升级:推出了新一代的深度学习超级采样(DLSS)技术,利用 AI 对低分辨率图像进行实时上采样,在不损失视觉质量的前提下,有效提高游戏帧率。
性能提升
算力大幅增强:以 B200 为例,相比 Hopper 系列的 H100,FP16/BF16 算力从 989TFlops 升级到 2250TFlops,提升了 2.25 倍;FP8 算力从 1979TFlops 升级到 4500TFlops。
内存带宽显著增加:从 Hopper 系列 H100 的 3.4TB/s 和 H200 的 4.8TB/s 增加到 Blackwell 系列的 8.0TB/s,更高的内存带宽直接提高了推理吞吐量和交互性,使 GPU 在处理大规模数据和复杂模型时更加高效。
NVLink 升级:从 Hopper 的 NVLink Gen4 双向 50GB/s 升级到 Blackwell 的 Gen5 双向带宽 100GB/s,同样是 18 个 NVLink 端口,总双向带宽达到 1800GB/s,大大增强了多 GPU 之间的通信速度和协同工作能力。
产品形态丰富
GB200 Superchip:包含一个 Grace 72 核的 ARM CPU 和 2 个 B200,拥有 384GB 的 GPU 内存,带宽为 16TB/s,通过 NVLink C2C 实现 CPU 与 GPU 900GB/s 带宽互联,在 AI 计算方面具有强大的性能。
GB200 NVL2:包含 2 块 Grace CPUs 和 2 块 B200 GPU,采用风冷设计,基于 NVIDIA MGX 平台实现单节点 2 块 B200 GPU,适用于对散热要求较高的场景。
GB200 NVL4:为低功耗的单服务器解决方案,集成了 4 个 B200 和 2 个 Grace CPU,总共包含 1.3TB 的一致性内存,相比 GH200 NVL4,GPU 整体性能提升 2.2 倍,训练性能提升 1.8 倍。
GB200 NVL72:扩展为机架规模,单个机架包含 72 个 B200 芯片全互联,具备强大的计算能力和高速的互联网络,适用于大规模的 AI 训练和推理任务。
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
2568