与非网 4 月 3 日讯,在 2018 年的百度 AI 开发者大会上,百度创始人、董事长兼 CEO 李彦宏宣布推出自研 AI 芯片昆仑。近日,百度智能芯片总经理欧阳剑展示了昆仑芯片的杀手锏,以及与国产处理器飞腾的良好适配。

 

百度研发 AI 芯片的积累得益于其用 FPGA 做 AI 加速的积累,也得益于其在软件定义加速器和 XPU 架构的多年积累。百度最早在 2010 年开始用 FPGA 做 AI 架构的研发,2011 年开展小规模部署上线,2017 年部署超过了 10000 片 FPGA,2018 年发布自主研发 AI 芯片,2019 年下半年流片成功,2020 年开始量产。

 

 

昆仑芯片的定位是通用 AI 芯片,目标是提供高性能、低成本、高灵活性的 AI 芯片。欧阳剑在分享中说:“相比 GPU,昆仑芯片的通用性和可编程性都做的不错,并且我们还在努力把编程性做的更好。”

 

昆仑发布之后,其相关消息陆续公布。架构方面,昆仑有 2 个计算单元,512GB/S 的内存带宽,16MB SRAM/unit。欧阳剑介绍,16MB 的 SRAM 对 AI 推理很有帮助,XPU 架构上的 XPU-SDNN 是为 Tensor 等而设计,XPU-Cluster 则能够满足通用处理的需求。

 

昆仑第一代芯片并没有采用 NVLink,而是通过 PCIE 4.0 接口进行互联。在三星 14nm 的制造工艺和 2.5D 封装的支持下,昆仑芯片峰值性能可以达到 260TOPS,功耗为 150W。

 

在灵活性和易用性方面,昆仑面向开发者提供类似英伟达 CUDA 的软件栈,可以通过 C/C++语言进行编程,降低开发者的开发难度。

 

目前,基于第一代昆仑芯片,百度推出了两款 AI 加速卡,K100 和 K200,前者算力和功耗都是后者的两倍。

 

在欧阳剑的分享中,给出了一系列 K200 对比英伟达 T4 的数据,其中在 Gemm-Int8 数据类型,4K X 4K 的矩阵下,昆仑 K200 的 Benchmark 分出超过 2000,是英伟达 T4 的 3 倍多。

 

在语音常用的 Bert/Ernie 测试模型下,昆仑也有明显性能优势。在线上性能数据的表现上,昆仑的表现相比英伟达 T4 更加稳定,且延迟也有优势。在图像分割 YOLOV3 算法中,昆仑虽然有优势,但优势已经不那么明显。不过欧阳剑表示百度仍然在通过持续的优化提高昆仑的性能。

 

他同时表示,昆仑已经在百度内部规模应用。至于对外提供 AI 算力,去年 12 月 13 日百度通过定向邀请的方式通过百度云提供昆仑的算力。在与欧阳剑的直播互动中,雷锋网(公众号:雷锋网)了解到通过百度云提供昆仑 AI 算力目前仍然是定向邀请的方式,且主要是私有部署的方式。百度会通过定向邀请的客户的反馈消息,再通过百度云大规模向外提供昆仑的算力,但他没有给出具体的时间线。

 

除了通过百度云提供昆仑的算力,欧阳剑也展示了昆仑加速卡在工业智能设备中的应用。欧阳剑演示的是用 CPU 和昆仑加速卡去进行产品缺陷检测,昆仑可以大幅提升速度,但并没有给出具体的对比数据。

 

另外一个展示则是昆仑的杀手锏,那就是和国产处理器平台飞腾的适配。在 2019 飞腾生态伙伴大会上,欧阳剑就透露昆仑 AI 芯片正在适配国产飞腾服务器,做性能调优工作。在欧阳剑的线上分享中,展示了采用昆仑加速卡带来的图像分割速度的显著加速。

 

飞腾 CPU 处理器采用的是 Armv8 指令级,主要用在数据中心和云计算中心,作为国产芯的代表,昆仑选择与飞腾进行很好地适配显然是看中了国产自研芯片的大市场。

 

通过飞腾 CPU+昆仑 AI 加速器的方式,双方可以更好的实现国产芯片在服务器市场的国产化,也可以视为昆仑 AI 芯片和加速卡未来增长的一个重要动力和杀手锏。