英伟达的新杀器又来了。
 
刚刚,在 GTC 2018 大会上,黄仁勋发布全球最大 GPU
 
他说的是 DGX-2
 
DGX-2 能够实现每秒 2 千万亿次浮点运算(2 PFLOPS),性能比去年 9 月推出的 DGX-1 性能提高了 10 倍,售价 39.9 万美元(人民币 250 万元)。
 
 
这次的 GTC 2018 大会在美国加州圣何塞举行,黄仁勋照例身着皮衣登台演讲。(官方还特别提示:这次是一件全新的皮衣)
 
 
 
而老黄这次的演讲主题,是四个 Amazing:amazing graphics、amazing science、amazing AI、amazing robots。
 
首先,从不可思议的图像开始。
 
在这个环节里,黄仁勋介绍了英伟达在图像实时光线追踪处理方面的最新进展,展示了细腻的反射效果。
 
 
 
这项技术,称为 RTX。它面向图形领域,借助深度学习技术,实现了实时光线追踪。
 
  
 
然后黄仁勋发布了首款基于 Volta 架构的工作站 GPU:Quadro GV100。
 
它支持英伟达 RTX 技术,支持 NVLink 2,32GB 容量 HBM2 显存。两个 GV100 相连,可以提供 10000 多个 CUDA 核心,236 teraflops 的 TensorFlow 核心。
 
说着说着,老黄又开始讲这句:买得越多,省得越多。(The more GPUs to buy, the more money you save。)
 
“来 GTC,学习如何节省百万美元。”老黄发出诚恳的建议。
 
然后进入不可思议的科学环节。
 
我们正处在 GPU 计算的关键点,黄仁勋表示。这部分他还介绍 TESLA V100 等产品的多快好省,也谈到一些 GPU 在计算和医疗影像方面的贡献。
 
比如医疗影像超级计算机 CLARA。
 
  
 
深度学习给医疗影响的识别带来了诸多变革,但投入到实际使用中却很难。医院用着十几年前生产的超声仪,黑白渣画质成了医疗进步的阻碍。
 
要等所有医院升级设备,可能要花上 30 年。
 
CLARA 是一款医疗影像的超级计算机,让医院可以升级那些已有的系统。医生可以仍然用原有的超声、CT 等设备,然后将图像输入超级计算机,推理出更清晰的图像。
 
在这个项目上,英伟达联合了一大群医疗行业的合作伙伴:
 
  

 

以及在这个环节,黄仁勋又引导全场跟他念:买得越多,省得越多。
 
来到不可思议的 AI 环节。
 
这个环节的主题是“全球最大的 GPU”。
 
首先,英伟达把 Volta V100m 每张卡的内存扩大到 32GB。适用于内存密集型的深度学习和高性能计算,还能将内存受限的 HPC 应用性能提升高达 50%。
 
其次,是全新发布的互联结构 NVSwitch,带宽比最好的 PCIe 交换机高出 5 倍,最高支持 16 个 Tesla V100 同时以 2.4TB/ 秒的速度进行通信。
 
 
最后,一个全新的 DGX 服务器发布了。
 
黄仁勋说这个现在是全球最大的 GPU 了:新的 DGX-2,包括 20 亿个晶体管,12 个交换机。每个 GPU 都可以通过光纤交换机互相通信,比 PCIe 接口快 20 倍。
 
DGX-2 的算力可达 2 千万亿次浮点运算,功耗 10 千瓦。这台机器内部是 NVLink 连接的两组 Tesla V100 阵列。
 
与 6 个月前发布的 DGX-1 相比,DGX-2 提速 10 倍。
 
五年前,在两块 GTX 580 上进行 Alexnet 训练耗时六天,现在使用 DGX-2,可以在 18 分钟以内完成。
 
这款产品将于今年三季度发售,每台价格 39.9 万美元(人民币 250 万元)。
 
  
 
DGX-2 具有 300 台服务器的深度学习处理能力,占用 15 个数据中心机架空间,而体积则缩小 60 倍,能效提升 18 倍。
 
此外,英伟达还更新了 CUDA、TensorRT、NCCL、cuDNN 等深度学习和 HPC 软件堆栈。
 
新版的 TensorRT 能快速优化、验证和部署在超大规模的数据中心,针对更广泛的应用加速深度学习推理。它最高可以 将深度学习推理的速度加快 190 倍,降低 70%的数据中心成本。
 
TensorRT 4 还集成到了谷歌 TensorFlow 1.7 版本中,更易于使用。
 
另外,NVIDIA 还宣布和 ARM 合作,将英伟达深度学习加速器架构集成到 Arm 的 Project Trillium 上,在手机、智能家居等设备上实现深度学习推理。
 
以及英伟达 GPU 现在支持 Kubernetes 了。这是一个基于容器技术的分布式架构方案。这个技术让英伟达的 GPU 进一步加速。
 
还有一事,英伟达骄傲的宣布,TITAN V 仍然断货中。
 
最后是不可思议的机器人环节。
 
发布了机器人开发工具包 Issac SDK 之后,话题转向了自动驾驶。
 
“我们正试图从头到尾了解这个系统,这其中包含四个最重要的方面:数据收集、模型训练、模拟和驾驶。”老黄说,这个了解过程,大约花了 5 到 7 年。
 
老黄在现场,又展示了一把云代驾。
 
  
 
他把 VR 和自动驾驶结合起来。通过一个 VR 眼镜和方向盘,就能启动自动驾驶汽车。
 
云代驾所用的平台,是新鲜发布的 NVIDIA DRIVETM Constellation,基于两台服务器。
 
第一台服务器运行 NVIDIA DRIVE Sim 软件,用以模拟自动驾驶汽车的传感器,如摄像头、激光雷达和雷达。第二台服务器搭载 NVIDIA DRIVE PegasusTM AI 汽车计算平台,可运行完整的自动驾驶汽车软件堆栈,并能够处理模拟数据,这些模拟数据如同来自路面行驶汽车上的传感器。
 
老黄又详细介绍了英伟达的感知基础架构。
 
每辆汽车都在收集 PB 级的数据,每个月有 1500 人大概标注 100 万件物品。
 
老黄表示,英伟达并没有试图建立一个基于软件定义的计算机的自主车辆系统,确切的说是在研究一个架构。
 
英伟达以 Drive PX Parker 单芯片架构为基础创建 DRIVE Xavier。这是一个四芯片系统,包含两个 Xaviers 和两个 Voltas。
 
这台耗能 300 瓦的电脑正在用于机器人汽车,将于今年晚些时候投入生产。
 
对了,这项技术英伟达拥有全部产权。
 
BTW,英伟达今天还宣布暂停了自动驾驶测试。
 
可能是受此影响,发布会一开始,英伟达股价就同步下跌,至发布会结束,英伟达股价累积下跌 6.64%。