与非网 3 月 13 日讯,昨日,有爆料消息称英伟达的下一代 GPU 架构将基于三星 10nm 制程,而不是之前报道的台积电 7nm 工艺,据称使用的 10nm 制程更接近于三星提供的 8LPP 技术,另外新的 Tegra 芯片也将使用相同的制程。

 

之前放出两张疑似是 Ampere GPU 核心架构图的 Twitter 帐号@CorgiKitty 在昨天也发布了新的传言,称新一代芯片将会使用三星的 10nm 节点工艺,而不是此前坊间传闻中的 7nm EUV 工艺。

 

外媒表示,英伟达安培架构曝光的 GPU 有 GA102、GA103、GA104、GA106 和 GA1075 款,配置最高的是 GA102。报道还称英伟达新款 GPU 将全部支持 RTX(实时光线跟踪),这意味着英伟达在安培架构上对 RT 核心设计进行升级,使其在性能较弱的显卡中也能实现光线追踪的效果。

 

 

一、实时光线跟踪

英伟达新款 GPU 将全部支持 RTX(实时光线跟踪),这意味着英伟达在安培架构上对 RT 核心设计进行升级,使其在性能较弱的显卡中也能实现光线追踪的效果。

 

使用基于光线追踪的算法(包括 ray tracing, path tracing, photon mapping, beam tracing, cone tracing 等等 )进行图形渲染。渲染对象是包含真实刚体及柔体物理模拟的动态场景。场景分辨率需达到 720P,并需要允许动态摄像机以及多光源(点 / 面光源)。渲染帧率需不低于 30 并以 60 为目标,渲染结果应该有较小的(肉眼难于分辨的)噪点。如果是 path tracing 等蒙特卡洛方法,则还需要无偏的结果(不然会出现局部模糊等 artifacts)。

目前的应用包括各类照片级渲染应用中场景设计的快速原型生成,视频游戏中的部分场景渲染。未来的应用领域会更加广阔。但实时的光线追踪的难点在于场景复杂度和需要的真实感渲染效果决定了遍历和相交检测的巨大计算量(场景分割数据结构的重构和光线与场景的相交测试是两项主要计算)。这是渲染领域以及任何模拟计算领域里终极的矛盾:效率和质量的矛盾。

 

目前的解决方案有两个方向的努力:软件角度和硬件角度,软件角度又可以分为自低向上和自顶向下的优化:BVH 和其他层级结构的场景分割(kd-tree, oc-tree, BSP-tree 等)是自顶向下的方法,在对场景进行分割时还有一项十分常用的优化算法:Surface Area Heuristic (SAH)。硬件角度的优化又可以分为采用 GPU 和 SIMD 的优化以及专门的 ray tracing 硬件。前者就是对上述软件优化的算法进行针对 GPU 或 SIMD 的优化,同时一些并行环境下的数学库函数和其他基本算法如排序等也间接起到了加速的作用。后者就是指将 ray tracing 中独有的相交检测,场景分割等部分采用专门的硬件来优化。此次英伟达新款 GPU 将全部支持 RTX(实时光线跟踪),RT 核心方面的设计已逐步完善。

 

二、NVIDIA 的新核心比上代性能提升了 40%

在 GeekBench 5 测试数据库里面,曝光了两组 NVIDIA 的新核心,参数暴涨,规格相当的强大,但都达不到 8192 个 CUDA 核心。其中一块核心拥有 118 组计算单元,假如每组继续延续 64 个流处理器的规格,那么 CUDA 核心数量就是 7552 个,低于在此之前爆料的 8192 个 CUDA 核心。
 


另一块核心削减了 108 组计算单元,于是 CUDA 核心就只有 6912 个,至于频率在 1.01GHz 左右。这样的参数远于 8912 个 CUDA 核心。

 

但我们可不可以这么认为,128 组计算单元对应 8192 个 CUDA 核心数是这块核心的最大规格,至于 118 组计算单元和 108 组计算单元,是阉割后的版本,分别适用于不同的领域。
 


配置最低的 GA107 为 1280 流处理器,4GB 显存,最高的 GA102 GPU 为 5376 流处理器,12GB 显存,其中 GA102 比上代的 RTX 2080Ti 性能提升了 40%。

 

图片来源:GeekBench 5 测试数据库