与非网 7 月 30 日讯,谷歌 TPU 是一种 ASIC 芯片方案。ASIC 全称为 Application-Specific Integrated Circuit(应用型专用集成电路),是一种专为某种特定应用需求而定制的芯片。但一般来说,ASIC 芯片的开发不仅需要花费数年的时间,且研发成本也极高。

 

对于数据中心机房中 AI 工作负载的高算力需求,许多厂商更愿意继续采用现有的 GPU 集群或 GPU+CPU 异构计算解决方案,也甚少在 ASIC 领域冒险。

 

近日,谷歌分享了其新的 TPU 模型,是该芯片的第四次迭代。据介绍,该芯片用于运行人工智能工作负载,其性能是前一代的两倍以上。通过 Google Cloud Platform,企业可以使用第三次和第二次迭代,这两者也展示了出色的性能。

 

谷歌表示,其第四代 TPU 的平均性能比其第三代 TPU 高出 2.7 倍。这家搜索巨头通过在最近的 MLPerf 行业竞赛中衡量他们训练五个流行的 AI 模型的速度来比较这些芯片。第四代 TPU 在运行 Mask R-CNN 模型时获得了最强的效果,Mask R-CNN 模型是用于自动驾驶等用例的图像分割 AI,其训练速度比 Google 的早期芯片快 3.7 倍。

 

 

Google 指出,他们在本次 MLPerf 训练回合中使用的超级计算机是 Cloud TPU v3 Pod 的四倍,后者在之前的比赛中创造了三项记录。该系统包括 4096 个 TPU v3 芯片和数百个 CPU 主机,所有这些都通过超快速,超大规模的定制互连进行连接。该系统总共可提供 430 多个 PFLOP 峰值性能。

 

性能的提高是设计重大变化的结果。谷歌工程师 Naveen Kumar 在博客中详细介绍了该公司已大大提高了 TPU 的内存带宽,即芯片从内存中获取数据进行处理的速度,并提高了其执行专门计算的能力。

 

“Google 的第四代 TPU ASIC 提供了 TPU v3 的矩阵乘法 TFLOP 的两倍以上性能,” Kumar 在帖子中详细介绍。矩阵乘法是 AI 模型用来处理数据的一种数学运算,而 TFLOP 是每秒一万亿个浮点运算。相比之下,与新芯片进行比较的第三代 TPU v3 每秒可管理 420 万亿次操作。

 

Kumar 写道,客户可以很快获得有关新 TPU 的更多信息。鉴于该平台上已有两个上一代 TPU 可供租用,该芯片很有可能最终登陆 Google Cloud。但是,客户可能需要等待一会儿:ExtremeTech 报告说,第四代 TPU 在 MLPerf 竞赛期间被列为研究类别,这意味着它将在至少六个月内无法商用。

 

新芯片的速度提升尤其引人注目,因为其性能优于第三代的芯片在同一比赛中打破了多项记录。谷歌使用了 4,090 个第三代 TPU 来构建其所谓的世界上最快的 AI 培训超级计算机。该系统为 MLPerf 八个基准中的六个基准创造了新记录,并在 30 秒内训练了四个测试模型。

 

谷歌 TPU 系列的出现,不仅突破了最初深度学习硬件执行的瓶颈,还在一定程度上撼动了英伟达、英特尔等传统 GPU 芯片巨头的地位。

 

自 2015 年以来,与 AI 芯片相关的研发逐渐成为整个芯片行业的热点,在云端的深度学习训练和推理领域,已然不是 GPU——尤其是英伟达的独霸一方。

 

而谷歌 TPU 的诞生,也让越来越多的公司前赴后继地尝试设计 GPU 之外的专用 AI 芯片,以进一步实现更高效的性能。