AI算力平台的价值是什么?

 

鲲云创始人兼CEO牛昕宇博士,在世博园的上交会演讲台上,向与会嘉宾提出了这样一个问题。

 

是跑AI算法吗?并不尽然,几乎所有的计算芯片都能跑AI算法,只是算力大小有区别。

 

牛昕宇用一道数学题回答了这个问题。

 

假如世博园要部署一个25000路的摄像头项目,实现人脸门禁、垃圾管理等各种各样的智慧化功能。而这些功能的背后其实是对算力的需求,需要通过服务器、计算平台来实现。

 

假设基于某国际大厂的算力平台,一台服务器可以支持250路视频的分析,部署整个世博园的智慧项目,需要100台服务器。

 

如果现在有一款算力平台,与现有服务器产品相比,在成本不变的情况下可提升4.47倍的性能。那么,一台服务器就从250路的分析能力,变成超过1000路的分析能力。这也意味着,落地同样的应用,实现同样的功能,只需要22台服务器,成本降低接近80%。

 

“这就是AI芯片的价值——大幅降低AI应用的落地成本”,牛昕宇道出当前AI的落地应用中,算力平台该有的价值。


4.47倍的背后

 

之所以说到提升4.47倍的性能,正是因为牛昕宇手中的这款星空加速卡X9,对标英伟达的旗舰产品T4,在不到其一半峰值算力的情况下,实测算力最高可以达到4.47倍的性能提升。这是如何做到的?

 

鲲云创始人兼CEO牛昕宇博士展示星空X9加速卡

 

就像长跑一样,制胜的关键不是瞬间的爆发力,而是跑下整场比赛的平均速度。AI芯片也是如此,像上文提到的智慧园区项目,用户关注的不仅是峰值算力,更是芯片的实测性能,即能够在实际应用中分析多少路视频。提供给用户所需的算力性价比——这是鲲云对标英伟达的底气。

 

与英伟达T4相比,星空X9加速卡在运行ResNet50, YOLO v3等算法模型时的芯片利用率提升了2.76-11.05倍,最高可以实现94.4%的芯片利用率。在性能方面,X9在运行ResNet50网络时性能可以达到6037.73FPS,相较T4性能提升1.12倍,运行YOLO v3、U-Net Industrial检测分割网络性能有1.99-4.47倍提升。在达到最优性能时,X9处理延时最低可达到2.65ms,处理速度相比T4提升35.73倍,适用于智算中心、云计算中心、高性能计算等对低延时有要求的高性能AI计算加速场景。

 

 X9 vs T4 芯片利用率
 


X9 vs T4 性能(FPS)

 

 X9 vs T4 延时(ms)

 

 X9 vs T4 benchmark

 

AI芯片的另一条路:数据流架构

 

鲲云为什么能够在更低的峰值算力甚至更低的芯片成本下,实现更高的实测性能?这要从X9加速卡背后的CAISA芯片说起。X9搭载了4颗CAISA 芯片,据鲲云官方介绍,该芯片“在支持深度学习通用算法的同时可发挥最高95.4%的芯片利用率,较同类产品提升最高11.6倍,在同等峰值性能下,提供远超于指令集芯片的实测算力。”

 

据牛昕宇介绍,CAISA芯片是全球第一颗量产的数据流AI芯片,基于鲲云从底层创新的数据流架构CAISA3.0。作为新一代AI计算平台,CAISA3.0架构并未延续传统的指令集架构。这是因为对于大规模计算芯片来说,冯诺依曼体系架构中数据的搬运和计算是串行进行的,因此造成了一个典型的问题:冯诺依曼瓶颈/内存墙,在运算过程中存在闲置的计算单元,这些计算单元在计算中要么在等待指令,要么在等待数据,造成了芯片利用率并不高。

 

而数据流架构不同于冯诺依曼体系,它依靠的是数据的流动次序来控制计算次序,可以简单理解为数据的搬运和计算是重叠的。在这样一个重叠的计算方式下,可以最大化地发挥出每个时钟周期的性能,把接近芯片极限的物理性能“压榨”出来。

 

“做AI芯片有两条路。第一条路就是基于传统的指令集架构,这条路相对容易,但是在芯片利用率上很难拉开差距。英伟达T4可以做到130TOPS、12nm工艺,在每一个指标上已经非常领先了,在这种情况下,我们在这条路上比拼峰值算力和工艺,是非常难的”,牛昕宇表示。

 

在英国帝国理工学院定制计算实验室时,牛昕宇就已经将数据流底层技术作为主要的研发方向,并致力于推进数据流架构和各个特定应用领域的融合,比如金融、机器学习、物理仿真等。“在与这些特定领域融合时,需要支持成百上千种算法,积累了高性能情况下的架构通用性基础,这些都是数据流架构长期研发的重点,”牛昕宇表示。

 

看准数据流和深度学习融合的价值

 

AI创业公司在初期的技术路线选择上至关重要,往往决定了未来的落地方向和长期的核心竞争力。

 

全球从事数据流芯片开发的企业屈指可数,除鲲云外,目前可追溯到的主要有:脱胎于斯坦福大学的SambaNova、前谷歌TPU核心团队创办的Groq,以及Wave computing。这三家中,只有SambaNova据称已经推出了产品,但其AI芯片和客户很大程度仍处于保密状态,可考数据不多。

 

那么,鲲云为什么能够成为全球首家量产数据流AI芯片的企业?其核心优势是什么?

 

牛昕宇表示,鲲云创始团队来自数据流技术的源头实验室,自90年代开始就深耕数据流架构与不同领域的领域专用架构研发,具备深厚的研发和迭代积累,掌握数据流技术从0到1研发的经验和能力,具备原创基础。第二,在此基础上,针对人工智能领域开发CAISA架构,鲲云从底层研发开始,实现了从0到1、一步步的突破和演化,对于架构的优势和迭代的方向都了然于心,目前CAISA架构已经迭代了三代,并且仍处于迭代升级中;第三,鲲云始终贴近落地需求,主要针对人工智能应用场景推进,如智慧园区、智慧工业等垂直领域,注重发挥数据流架构的算力性价比优势。“作为第一家量产落地的数据流AI产品,客户使用的越多,来自一线的反馈就越多,就越有利于迭代升级,能够越来越契合市场的真正需求”,他强调。

 

成立以来,鲲云一直聚焦于数据流和深度学习领域的融合。为什么选定深度学习?核心原因有两点,一是深度学习本身就是流式的处理方式,和数据流的特质相符,能够较好地发挥性能;二是深度学习的应用领域非常广泛,出货量也足够大,针对这个领域做定制化的架构可以支持ASIC芯片的量产,从而能够进一步发挥出数据流架构的性能优势。

 

对于定制类架构,有人担心深度定制会导致通用性不足,但这却恰恰是数据流架构所解决的问题,牛昕宇表示。CAISA定制数据流架构是一个针对深度学习领域的通用架构,保持高性能的同时,提供AI领域通用性是CAISA架构的核心研发目标,也是我们的核心优势。人工智能算法是多样化的,其变化主要来自三方面:算子的变化、算子组合的变化、以及开发框架的变化。CAISA架构底层算子可配置支持不同计算方式,支持不同算子组合和拓展;针对不同算子组合,CAISA 架构内通过本地互联网络和全局互联网络可以实现不同计算单元的组合,从而保证支持不同算法的同时,又可以实现对特定算法的高性能支持;最后,不同框架和开发方式可通过端到端的编译器RainBuilder来支持实现。

 

目前,CAISA3.0 架构可支持多种深度学习算法,包括目标检测、分割、分类等领域的主流算法,实现了在深度学习领域的通用性。此外,鲲云提供RainBuilder开发工具链,能够实现自顶层深度学习开源框架算法至底层架构时钟的精确映射,兼容现有AI开发框架、生态及软件,在软件的易用性方面进一步降低了应用门槛。


向数据中心腹地进发,提供极致算力性价比

 

面向高性能AI推理市场,鲲云牢牢扣住数据流技术路线所带来的算力性价比的优势。最新的星空加速卡X9与上一代X3相比,向中心端更进一步,主要面向更高性能AI服务器,助力更高峰值算力、更高算力密度应用在中心的聚集,如智算中心、云计算中心、高性能计算等典型场景的应用和建设。据了解,该产品已经完成了量产,将于近期和浪潮完成产品适配,推出搭载星空X9加速卡的智算中心AI服务器。

 

不同于传统数据中心,智算中心更注重构建先进的AI算力基础设施来承载AI创新,下一个十年,堪称算力的黄金十年。高性能AI计算芯片作为核心生产力,从架构升级到应用场景的落地,都蕴含了巨大的市场空间和机遇。 

 

“一方面,算力基础设施的更新换代,会降低数据的传输成本,导致更多的数据被收集,产生更大的算力需求;另一方面,算力的密度将会越来越高,系统性能越来越强,部署成本也将越来越可控,这是未来算力设施升级的两个方面”,牛昕宇表示,“而边缘和云将会是共存的关系,边缘侧主要进行实时处理,数据中心汇集后进行更深入的分析,二者都在快速增长中,且都有广阔的市场前景。”

 

不过,虽然市场升级是大趋势,半导体产业也在持续成长中。但必须承认的是,商业落地绝非易事,更何况云端市场面临的都是英伟达、英特尔这样的国际巨头。AI芯片的战略价值在被业界所认同的同时,也成为兵家必争之地。

 

牛昕宇认为,不论是巨头还是创企,对于AI芯片各有各的布局和优势,初创企业不一定要和巨头正面竞争,一是要关注中短期的落地方式,二是要关注长期的核心竞争力。在垂直领域,把自己具有性价比的算力产品做好,把客户支持做好,单点打通仍然能够产生很高的价值。

 

最终,落地的核心点在于:算力性价比和应用生态。回到本文开头,计算平台的价值究竟是什么?“因为所有的计算领域都有一定的性能要求,所有算法都需要附着在芯片上,完成最后部署”,牛昕宇表示,“这就是下一代AI计算平台的价值和所承载的责任,鲲云将继续在算力性价比、架构通用性,软件易用性这三方面均衡演进,降低AI的落地门槛和成本。”