英伟达(Nvidia)在其年度 GPU 技术大会(GTC 2018)发表多项系统级升级功能,以提升其绘图处理器(GPU)在人工智慧(AI)神经网路训练方面的性能,并与 ARM 合作将其技术扩展到推论领域。


针对可能会在 2019 年或之后推出的 7nm GPU,Nvidia 并未提供详细的开发蓝图。不过,由于其他竞争对手——如 AMD 才刚进入这个领域、英特尔(Intel)预计要到明年后才会推出 Nervana 加速器,而新创公司 Graphcore 至今仍不动声色,这让 Nvidia 还有时间慢慢琢磨。就在几个月前,英特尔和 Graphcore 都计划在今年发布量产芯片。


Nvidia 的高阶 Tesla V100 GPU 现可提供 32GB HBM2 DRAM,较去年 5 月发布时支援更高 2 倍的记忆体容量。此外,该公司还宣布推出采用台积电(TSMC) 12nm FinFET 制程制造的 100W 芯片——NVSwitch,支援 18 个 NVLink 2.0 埠,可链接 16 个 GPU 至共享记忆体。


Nvidia 率先打造出可支援 10kW 功率与高达 2 petaflops 性能的强大 AI 训练系统。其 DGX-2 在 10U 机箱中封装了 12 组 NVSwitch 芯片和 16 组 GPU,足以支援两个 Intel Xeon 主机、Infiniband 或乙太网路(Ethernet)以及多达 60 个固态硬碟(SSD)。


Cray、慧与科技(Hewlett Packard Enterprise;HPE)、IBM、联想(Lenovo)、美超微(Supermicro)和泰安电脑(Tyan)等公司都已宣布将在今年 6 月前开始出货搭载这款 32GB 芯片的系统。甲骨文(Oracle)则计划今年底在云端服务中搭载该芯片。


Nvidia 透过广泛地升级记忆体、互连与软件最佳化,以提高 AI 性能。Nvidia 表示,它在两天内完成 FAIRSeq 翻译模型的训练,较去年 9 月时采用 8 组 GPU 与 16GB 记忆体的测试提高了 8 倍。此外,SAP 则指采用 ResNet-152 模型,使其于影像辨识方面取得 10%的进展。


为了超越 Nvidia,英特尔计划在明年量产支援 12 组 100Gbit/s 链路的 Nervana 芯片,而 Nvidia Volta 则支援 6 个 25Gbit/s NVLinks。Nervana 芯片支援非同相记忆体,可在打造加速器丛集(包括环状网路)时提供更大的灵活性,但在编程时将会更加困难。


为了简化编码作业,英特尔宣布开放其 Ngraph 编译器,目的在于来自第三方 AI 架构(如 Google TensorFlow)的软件转变为可在英特尔 Xeon、Nervana 及其 FPGA 芯片上执行的程式码。


英特尔和几家资料中心合作伙伴正针对执行于加速器原型上的程式码进行微调。该公司计划在 5 月下旬的开发者大会上发布其计划细节,但预计要到明年之后才会量产芯片。届时,Nvidia 将英特尔计划升级加速器开发蓝图的压力,而必须尽快推出下一代芯片。


Tirias Research 资深分析师 Kevin Krewell 说 :“目前的 Nervana 产品将成为一款真正的软件开发工具。它是在英特尔收购该公司之前,以 28nm 制程技术打造的,因而不至于与 Nvidia 12nm Volta 设计相互竞争。”


他补充说,为 Volta 升级记忆体和 NVSwitch,“让 Nvidia 得以在竞争中保持领先。我们都期待采用更先进的下一代制程技术,但是,就量产出货的芯片而言,Volta 目前还没有竞争对手。”


至于几家新创公司,Wave Computing 预计今年推出首款针对资料中心和开发人员打造的训练系统。这一市场还有新的业者持续出现中。例如新创公司 SambaNova Systems 在获得 5,600 万美元的投资后首度在上周登场,其投资方包括 Google 的母公司 Alphabet。SambaNova Systems 的共同创办人 Kunle Olukotun 之前还成立了新创公司 Afara Websystems,并打造了 Niagara 伺服器处理器,后来被升阳公司(Sun Microsystems)收购,而 Oracle 后来并购了升阳。

 

 

Nvidia DGX-2 将自第三季开始销售

联手 ARM 加速深度学习推论计划
Nvidia 目前在资料中心的神经网路模型训练方面占主导地位,但在网路边缘的更广泛推论领域仍是个新手。为了加强其市场地位,Nvidia 和 ARM 展开合作,将 Nvidia 的开放来源硬件导入推论作业,成为 ARM 机器学习产品计划的一部份。


Nvidia 去年宣布将开放其 Xavier 推论加速器 IP,至今已发布了多个 RTL 版本了。这些 IP 目前正面对来自益华(Cadence)、Ceva 和新思科技(Synopsys)等公司的 AI 加速器竞争。


至于 ARM 将选择哪一款 Nvidia IP 目前仍不清楚。ARM 至今只是草拟了将 AI 芯片作为其广泛 Project Trillium 的一部份。ARM 目前仅透露计划将其新兴神经网路软件移植到 Nvidia IP 上。


Nvidia 负责 Xavier 的移动事业部门副总裁暨总经理 Deepu Talla 表示,他注意到业界开始使用免费的模组化 IP 设计多种芯片。然而,迄今为止还没有人发布相关资讯。


Nvidia 希望在推论方面的努力能够扩展到使用其机器学习软件,该软件同时也用于训练 AI 模型。为此,该公司发布了几项更新其程式码的计划,并将其整合至第三方 AI 架构中。


此外,Nvidia 最新的 TensorRT 4 Runtime 软件也增强对于推论作业的支持,并整合于 1.7 版 Google TensorFlow 架构中。Nvidia 还将该 Runtime 软件与 Kaldi 语音架构、Windows ML 和 Matlab 等整合在一起。


该公司并宣布,上周推出的 RTX 光影追踪软件采用 V100 Quadro GV100 芯片,支援 32GB 记忆体和两组 NVLink。


该软件可为游戏、影片和设计模型提供更快速、更逼真的渲染,执行于 Nvidia 专有的 API 以及微软(Microsoft)用于光线追踪的 DirectX,未来还将支援 Vulkan。


Nvidia 专业视觉化部门副总裁 Bob Pette 表示,相较于基于 CPU 的渲染,该软件进一步提升了 10 倍到 100 倍;他并预计这一市场将在 2020 年达到超过 20 亿美元的规模。

 

 

Nvidia 执行长黄仁勋认为,GPU 在 AI 效能方面已发展出超越摩尔定律以外的新方向。