这半年的 PC 领域一点都不太平。AMD 分别用第三代锐龙,NAVI 显卡再次向英特尔、英伟达发起冲击,并在 E3 2019 上正式发布 RX 5700 和 RX 5700 XT 两款新显卡。有意思的是,在 AMD 新显卡发布两周前,英伟达就悄然发布了 Super 字样 Logo,英伟达 GeForce RTX Super 系列浮出水面。
 
与英伟达以往的命名规则不同,Super 将接替以 Ti 的位置,成为同型号显卡中的进阶产品。名为 Super 的显卡是否会像 Ti 那般给人带来惊喜?现在,就让我们奉上英伟达 GeForce RTX 2070 Super 与 GeForce RTX 2060 Super 首发评测。
 
 
 
GPU 再进阶
为了应付不同价位段,英伟达图灵架构面向消费类的 GPU 分成了 TU102、TU104、TU106 三个型号,分别对应 GeForce RTX 2080 Ti、GeForce RTX 2080 和 GeForce RTX 2070,然后再根据市场细分和定位,再对相应 GPU 部分核心进行屏蔽。例如 GeForce RTX 2060 就是在完整 TU106 的基础上,删掉了 6 个 StreamingMultiprocesor(流式多处理器,SM)、6 个 RT Core、48 个 Tensor Core,最终完成与 GeForce RTX 2070 之间的区分。
 
  
到了 Super 系列,局面发生了一些不同,由于 TU106 已经到顶,GeForce RTX 2070 Super 直接进阶到了与 GeForce RTX 2080 相同的 TU104 GPU,型号名称为 TU104-410-A1。同时 GeForce RTX 2060 Super 参数更接近 GeForce RTX 2070,型号名称为 TU106-410-A1。顺带一提,GeForce RTX 2080 与 GeForce RTX 2070 GPU 型号分别是 TU104-400A-A1 和 TU106-400A-A1。为了让大家能够更清楚英伟达 GeForce RTX 2070 Super 与 GeForce RTX 2060 Super 的定位,我们将表格更新如下。
 
  
在细节上,TU104 GPU 中一共有 6 个 GPC(图形处理簇),每个 GPC 里包含有 4 个 TPC(纹理处理簇),每个 TPC 里有 2 个 StreamingMultiprocesor(流式多处理器,SM,对应 OpenCL 中的概念就是 CU,Computing Unit),每个 SM 里包括若 64 个 CUDA Core。
 
在结构上,英伟达 GeForce RTX 2070 Super 以完整的 TU104 为基础,删掉 1 个 GPC,亦或者根据情况选择 4 个 SM 进行屏蔽,最终获得 5 个或者 6 个 GPC,20 个 TPC,40 个 SM 以及 2560 个 Cuda Core、320 个 Tensor Core 和 40 个 RT Core。
 
 
 
重点还在于 TU104 集成单通道 NVLink 2.0 高速总线,可提供各向 25GB/s 带宽,远高于 HB SLi 的 1.95GB/s。从外形上看 GeForce RTX 2070 Super 更长,并配备 NVLink 接口,提供多显卡玩法,这一举措相当感人。
 
  
完整的 TU106 GPU 一共有 3 个 GPC,每个 GPC 包含 6 个 TPC,每个 TPC 内包含 2 个 SM,每个 SM 有 64 个 CUDA Core。
 
因此英伟达 GeForce RTX 2060 Super 以完整 TU106 为基础,删掉 1 个 TPC。也就是 3 个 GPC、17 个 TPC 和 34 个 SM。因此也获得了 2176 个 CUDA Core,272 个 Tensor Core 和 34 个 RT Core。
 
 
 
 
由于在图灵架构中引入了 RT Core 和 Tensor Core,以帕斯卡架构以前的硬件堆叠来判断显卡的性能有失偏颇。在 Windows 10 RS5 以后的版本中已经集成了 DirectX Ray Tracing(DXR)和 Windows ML 机器学习,通过软硬结合,在新的模型里可以实现传统的光栅化渲染、光线追踪和人工智能。因此显卡的混合渲染模型性能指标变成了 RTX-OPS,即:Tensor Core(FP16):20%,CUDA Core(FP32):80%,RT Core(RTOPS):40%(80% 的一半),INT32:28%(80% 的 35%)。
 
公式如下:
RTX-OPS = TENSOR * 20% + FP32 * 80% + RTOPS * 40% + INT32 * 28%
 
虽然官方没有给出 GeForce RTX 2070 Super 与 GeForce RTX 2060 Super 的 RTX-OPS 指标,但通过推算可以得出:
 
GForce RTX 2070 Super RTX-OPS = 72 * 20% + 9.1 * 80% + 70 * 40% + 9.1 * 28% = 52.228 RTX-OPS
 
GeForce RTX 2060 Super RTX-OPS = 57.4 * 20% + 7.2 * 80% + 60 * 40% + 7.2 * 28% = 43.256 RTX-OPS
 
最终我们获得了一套对比表格,可以看到 GeForce RTX 2070 Super 与 GeForce RTX 2060 Super 正好穿插在 GeForce RTX 2060、GeForce RTX 2070 和 GeForce RTX 2080 之间,符合 Super 定位。
 
  
基础性能再进一步
老规矩,先让我们奉上测试硬件环境。参与测试的显卡包括 GeForce RTX 2070 Super Founders Edition,GeForce RTX 2060 Super Founders Edition。陪跑显卡包括 GeForce RTX 2060 Founders Edition 与 GeForce RTX 2070 Founders Edition。是的,全部均为英伟达原装信仰版本。
 
 
  
由于 RTX 20 以后系列显卡均使用了双风扇“燃气炉”设计,散热效果比以往单风扇的 GTX 10 系列更好。不过 AIC 厂商通常还会在设计中融入三风扇设计,同时会根据定位,在出厂前对显卡进行一定程度超频,FE 版本显卡可以作为参考的基准值。
 
此外,硬件测试平台包括酷睿 i9-7920X、ROG Rampage VI Apex X299 主板,Apacer Panther DDR4 3000 8GB x4,Plextor M9PeY 512GB PCIe,以及 ASUS PA329Q 4K 10bit 显示器。确保在硬件周边上不拖后腿。
 
  
Benchmark 测试环节依然包括了 3DMark Fire Strike Ultra、3DMark Fire Strike Extreme、3DMark Time Spy、3DMark Time Spy Extreme,VRMark Cyan Room、VRMark Blue Room。
 
  
从分数上看,GeForce RTX 2060 Super 相对 GeForce RTX 2060 有大约 17%的提升。GeForce RTX 2070 Super 相对 GeForce RTX 2070 有大约 13%的提升。
 
 
 
 
在数周前的 E3 2019 上,实时光线追踪在新游戏中不断被提及,包括大伙翘首以盼的《赛博朋克 2077》,具备全新光线追踪效果的《控制》,《使命召唤:现代战争》,《DOOM》新作、《德军总部》新作再加上国产《仙剑奇侠传 7》、《剑网 3》都已经公开了光线追踪演示,大作吃上光线追踪效果不过是时间问题。
 
为了让更多硬件支持光线追踪效果,英伟达给光线追踪分成了数套方案,包含反射 Reflections、二次反射 Advanced Reflections、全局光照 Global Illumination、阴影 Shadows、环境光遮蔽 Ambient Occlusion 效果。例如,前阵子火热的劳拉姐姐《古墓丽影:暗影》光线追踪采用了阴影效果,《地铁:离乡》则使用了多种光线追踪方案叠加,在性能上也更吃紧。
 
3DMark 为光线追踪测试增加了 Port Royal 项目,GeForce RTX 2060 Super 提升了 23%,GeForce RTX 2070 Super 提升了 11%。
 
  
为了证明实时光线追踪效果添加并不困难,英伟达游戏部门还亲自动手,给上古经典游戏《QUAKE II》追加了光线追踪效果,取名《QUAKE II RTX》,在英伟达官方网站就能下载游玩。实际游戏对比中,两块显卡的光线追踪游戏性能提升都在 8%左右。
 
 
伴随着光线追踪而来的,自然也少补不了深度学习超采样 DLSS。很大原因在于实时光线追踪技术对运算量要求苛刻,属于需要数代显卡更新追逐的技术圣杯,期望短期内实现完美的光线追踪效果完全不可能。这时候就需要用上深度学习超采样 DLSS。
 
DLSS 本质上是一种程序分析化抗锯齿技术,在结合海量数据之后,可以达到 64 倍超采样效果,这是传统 MSAA、TAA、FXAA 都不敢想象的。结合 DLSS 意味着 GPU 可以用较少的资源实现高清晰度画面甚至光线追踪效果,但 DLSS 本身也有很高门槛,就是必须像 RTX 20 系列以后显卡拥有 Tensor Core 进行加速。
 
同样是 3DMark 的 DLSS 项目与《最终幻想 15》的 DLSS 测试,两块显卡提升也与性能提升持平,其中 GeForce RTX 2060 Super 提升更为明显,一部分原因也在于 RTX 2060 起始帧率较低。
 
 
 
DLSS 与光线追踪融合之后,游戏和 DEMO 的实际提升愈发明显。事实上我们不必担心 RTX 显卡在开启光线追踪的游戏效果之后会消耗性能至游戏卡顿,只要是能够光线追踪和 DLSS,在保证一定效果光线追踪画质下流畅运行游戏完全没有问题。
 
 
 
能愉快游戏吗?
先说结论,能。
 
大波 3A 级光线追踪游戏大作还在赶来的路上,现在我们面临最实际的问题是,能否轻松应对现有游戏作品。我们挑选了数款游戏进行对比,其中包含即将在国内上线的《最终幻想 14 Online》5.0 版本的测试 DEMO,以及横跨 DirecX 数个版本的游戏,以验证显卡在实际游戏中的表现。
 
 
 
 
 
 
 
从综合上判断,GeForce RTX 2060 Super 相对 GeForce RTX 2060 提升大约在 14%左右,GeForce RTX 2070 Super 相对 GeForce RTX 2070 提升大约在 10%左右。实际游戏体验与 3DMark 测试分数相当。
 
在图灵架构之后,英伟达再次对图像算法、内存压缩引擎进行更新。例如《孤岛惊魂 5》水面模拟效果,会运用 FP16 来解决不需要高精度的游戏画面特效。这时候 GeForce RTX 显卡中的 Tensor Core 会站出来解决类似的问题。
 
由于 SM 内的整数运算单元拥有了自己的指令发射端口,使得浮点运算单元和整数运算单元可以并行执行任务。以《古墓丽影:暗影》的范例来看,平均每 100 条浮点指令,就会伴随 38 条整数流水指令和 62 条浮点流水指令。当两者并行,指令吞吐率就会升高,游戏速度自然得以提升。
 
  
此外,图灵架构还引入了灵活的比率可变着色 Varable Rate Shading,即 VRS,它可以动态调整屏幕上 256 个区域的着色比率,方便开发人员部署新算法实现以前难以实现的分区精确优化。例如在《极限竞速:地平线 3》画面中,左侧代表不同着色比率的色彩示例,右侧代表画面中的不同色块代表了该区域使用的着色比率,只有 1×1 的部分会被独立着色,剩下部分会根据开发人员选择只渲染 4 个像素、16 个像素或者其他非正方形像素比率。游戏中路面,两侧风景都可以根据需求更改渲染比率,最终达到节省运算资源,确保游戏画面流畅的效果。
 
针对不同游戏,新技术可以提供内容自适应着色 Content Adaptive Sading 和运动自适应着色 Motion Adaptive 两套算法,实现不同情况的区域精确分割。
 
 
从这里可以看出,RTX 20 系列优势不仅仅在于更大的芯片面积和元件布局,与之匹配更节省资源的无损算法能让显卡拥有更好的表现。但需要注意的是,新技术需要软件和硬件同时支持,随着英伟达 Game Ready 深入到游戏的不同开发阶段,发布时间距离现在越近的游戏,也越能发挥出显卡性能,有更好的表现。
 
简单的说,就是买新不买旧。
 
同时我们也发现,虽然性能有所增加,GeForce RTX 2070 Super 与 GeForce RTX 2060 Super 的功耗并没有显著提升。其中 GeForce RTX 2070 Super TDP 为 215W,GeForce RTX 2060 Super TDP 为 175W。除了 GeForce RTX 2070 Super 改用 6+8pin 供电,GeForce RTX 2060 Super 在电源接口上没有变化,仍然维持 8pin 电源接口。
 
 
通过 FurMark 压力测试,并通过 GPU-Z 对 GPU 核心温度检测,几块 GeForce RTX 显卡都处在一个水平线上。
 
 
同时在 26 摄氏度的室内环境下,两张显卡的表面最高温度主要还是集中在出风口处以及显卡背板上方。
 
此为 GeForce RTX 2060 Super
 
此为 GeForce RTX 2070 Super
  
让 RTX 更懂你
时隔一年,英伟达给出的不仅仅是给出代号“Super”的反击答卷,同时也让配套的软件变得人性化和易用。随着更新,英伟达还带来了一套名为 FrameView 独立应用。
 
  
在 DirectX 11 时代,玩家们可以依靠 Fraps 等帧数读取软件自行检测自己显卡的实际表现。但往后由于 DirectX 12 不再支持相应操作,不得不转向通过显卡和驱动提供相应接口,以获取真实数据。
 
虽然众多 AIC 厂商在提供调试软件的同时,也提供了相应的游戏帧数监测手段,但由于设计风格和思路不同,不同品牌之间上手操作多少有些门槛。FrameView 功能延续了 GeForce Experience 界面风格,并且简单到只有一个界面。只需要设定好快捷键和存放目录。在游戏中就能直接看到游戏平均帧数、丢帧数、GPU 功耗,显卡整体功耗等等。
 
 
当然,也可以让 FrameView 记录完游戏全程的帧数,然后通过 Excel 自行绘制一套酷炫的曲线表格。
 
 
而 GeForce Experience 本身就是一个能够快速提升英伟达显卡体验的工具,除了优化游戏设置,下载驱动。GFE 还能根据用户自身需求,自行选择 Game Ready 驱动或者 Studio 驱动,前者应付最新的游戏,后者针对创作软件效率和稳定性做出优化。目前 GeForce RTX 已经能做到为 Adobe Creative Cloud 优化,最高支持 4K 直播和视频编辑等操作。
 
同时针对国内热门的游戏直播,英伟达也与斗鱼进行技术对接,利用图灵架构的硬件编码器 NVENC 提升推流的画面质量、帧率和游戏性能。甚至,还可以帮助主播在一台机子上完成游戏、推流。
 
 
价格战序幕
面对 AMD 新显卡即将开卖,英伟达 GeForce RTX 2070 Super 与 GeForce RTX 2060 Super 推出多少有些先发制人的意味。并且从定位来看,两款显卡在性能和定价上必将死磕对手。
 
 
其中 GeForce RTX 2070 Super 上升了一个档次,搭载 TU104 GPU,配备 NVLink 2.0 接口,215W TDP 对现有升级都不会有太大影响。GeForce RTX 2060 Super 性能提升则更明显,更接近于 GeForce RTX 2070。
 
 
目前 GeForce RTX 2070 Super 国行定价为 3999 元,GeForce RTX 2060 Super 国行定价为 3199 元,相信之后 AIC 会进一步压低价格,但也难免会逼迫原本的 GeForce RTX 2070/2060 降价,最终促成新一波性价比甜点显卡诞生。
 
重点是,这场好戏才刚刚开始。除了光线追踪和 DLSS,英伟达依靠软件和算法为显卡打造了一整套完整的游戏、创作体验,这不是简单的堆叠硬件参数所能做到的事情。同时,也让我们期待起定价 5699 元的 GeForce RTX 2080 Super 性能表现,以及对英伟达进入 7nm 制程以后的畅想。
 
至少对于玩家而言,竞争之下产生的性价比,一定是很高的。