在网络、计算和存储领域,越来越多的应用需要专用的架构,以使硬件能够和算法进行匹配,从而达到最佳运行效果,或者是提高它的运行速度。现在,网络上有很多不同的数据,这些数据在运行过程当中,它的要求是不一样的。现在这个网络可能和下一代网络不一样,和下下一代网络就更不一样了。所以,就需要硬件能够跟上这些领域专用架构的要求,同时还要提升它的性能,充分发挥硬件的功能。


而要满足以上需求,FPGA 方案是一个不错的选择,原因自然是其强大的灵活性。


2018 年 3 月,赛灵思 CEO Victor peng 上任伊始,就宣布了该公司从器件到平台转型的三大策略,其中之一就是数据中心优先策略。去年 10 月,赛灵思推出了 ACAP 这个新的产品类别,同时推出了 Alveo 平台——面向数据中心加速的第一款自适应计算加速卡,去年 11 月,该公司推出了 Alveo 产品 U280,而就在本周,赛灵思又推出了 Alveo 新品 U50,把赛灵思数据中心优先策略往前推进了一步。


Alveo U50 是专门面向所有服务器和云打造的业界首款自适应计算、网络、存储加速器。2018 年赛灵思推出 Alveo 产品的时候,该公司就有这样一个愿景:不仅加速计算,而且同时加速网络和存储,实现在 Alveo 平台上的整体加速。在一系列数据中心的关键负载应用中,通过 U50 这个 Alveo 平台扩展产品,显著改善吞吐量、时延和功耗效能。


据赛灵思数据中心业务部产品规划和市场营销总监 Jamon Bowen 介绍,Alveo U50 是支持 PCIe 的一张卡,不是像 GPU 加速器那样的很大型的卡,像那样的卡用于电脑没有问题,但作为网络和存储加速就不行了。我们采用 UltraScale+的架构,还集成了超高带宽的 HBM2 存储器技术,所以大幅缩小了这个产品的尺寸。因为内存现在加在了 FPGA 芯片上,所以不仅能够释放巨大的空间,还能使性能获得显著提升。

 


另外,U50 用的是第四代 PCIe 即插即用型卡,也就是说采用的是市面上最前沿的技术,这是很多服务器刚刚开始支持的标准。此外,U50 还有很多网络端口,Jamon Bowen 表示,现在有越来越多的用户都在使用网络端口,相信随着我们产品进一步扩展,会有越来越多网络方面的用例。而且它的功耗也完全能够符合大家的预算要求,不到 75 瓦。

 

Alveo 的优势

Jamon Bowen 表示,我们从数据中心客户那里听到的一个最大的抱怨就是器件编程非常困难,Alveo 就简化了硬件编程程序,它有一个非常开放的平台和环境,让开发者能够更加便捷地使用我们这个平台。如果有越来越多的开发者到我们这个平台上做开发的话,我们也会加入更多的云、更多的产品,并且能够实现原来只有在软件部分才有可能的硬件 IP 的灵活应变能力。

 

 

在具体应用方面,U50 最主要的一些解决方案涵盖的领域包括数据分析、视频与图象处理、机器学习、生命科学和金融计算。Jamon Bowen 表示,我们有非常广泛的客户和伙伴,都在用 Alveo 这样一个平台的生态。我们在上面也加入了很多 IP 和驱动来支持我们的合作伙伴和开发者。而且我们非常高兴地看到,我们希望这个生态系统能够开发一个全堆栈的解决方案,所以自 Alveo 推出不到一年的时间,现在已经有很多的生态合作伙伴推出了基于 Alveo 的解决方案。已发布的应用已经是 2018 年 10 月的 2 倍,而我们培训的开发者已经是那时候的 4 倍。


另外,因为赛灵思的产品是非常商业化的,而且是现成的标准化的产品,包括驱动,能够调动整个 IT 界的积极性,大家共同努力,和开源框架进行连接。Jamon Bowen 表示,用我们的产品时,可以直接使用 Kubernetes 和 docker 的产品。因为是非常标准化的产品,Kubernetes 当中可以直接有这样一个插件,它可以在系统内部很快反映出来有 Alveo 这样一个加速硬件。另外,开发者也可以把它和 docker 配合起来使用,第一步对 Alveo 进行编程,然后系统中也能体现出这样一个加速应用。如果没有这样一个标准化的产品配置的话,客户可能需要花费大量的投资才能实现这个功能。所以,这对于一些超大规模数据中心的应用来说是非常有必要的,既可以在云端,也可以用 Alveo 在本地进行加速,而且是一个非常开放式的架构,可以进行全面的加速。大家只要在 Kubernetes 的框架当中来看到我们这个插件,就一目了然了。

 


U50 的应用

下面看一下 Alveo U50 的一些应用情况。


1、语音翻译

首先看语音翻译的计算负载加速,使用的是 Alveo U50 来实现这方面的功能,而不是 GPU。从 Alveo U50 和 CPU、GPU 在语音翻译加速功能的比较来看,Alveo U50 最重要的一个实现特征就是它的高吞吐量和低时延的推断性能,对于这个应用来说,这两个特点是非常重要的。因为在这个领域当中,用到的机器学习和之前的神经中枢网络是不一样的,而这个正是 Alveo U50 的优势所在。

 


将 Alveo U50 和英伟达 T4 相比,性能提升了 10 倍。Jamon Bowen 表示,我们的性能非常优越,能够用于很多不同的网络。机器学习的推断还要求更低的时延推断来支持这样的案例,而且要求我们的硬件能够支持这样的推断,还要离数据源非常近。U50 的小尺寸非常契合需要边缘计算的用例场景。


2、数据库分析

数据库分析方面的加速是完全不同的场景,主要是用于一些商业信息分析领域,如数据库查询加速运行的 TPC-H Query5 这样的体系,主要是一些商业营销决定的决策查询或者咨询建议。有很多企业都会面临这样的决策,他们有一个很庞大的数据库,里面有很多供应商,有很多的产品,也有很多的销售数据。在这个加速过程当中,会用到很多的标签节点,会列出很多相关的表格,然后进行具体的查询。在每一个节点对带宽的要求都是非常高的,而带宽又是顺利进行加速的关键点。

 


Jamon Bowen 表示,我们做了一个比较,采用的是一台没有加速的英特尔最先进的多核处理器 XEON 系列产品,和我们加入了 Alveo U50 的结果比起来, 处理速度提升 4 倍,而且这时因为 U50 卡尺寸非常小,可以使用多张卡的形式,因为它的尺寸非常小,所以要进行多倍数的加速也是可以做到的。


3、金融市场建模

还有一个例子是金融,金融领域很多都是需要建模的,这样才能给这些金融工具定价。通常是有非常大量的数据输入,然后做几百万字的模拟,最后得出来一个平均值,得到一个结果的范围来确定在最糟糕的情况下它的风险是什么样的。


Jamon Bowen 表示,我们在这里也进行了一项比较,一个是使用 Alveo U50,还有用的是英伟达第一版的 GPU,还有英特尔的 CPU,我们和他们性能的比较都达到了 20 倍,同时,我们的成本只有 GPU 的一半。我们之所以能够实现这样的加速,就是赛灵思一直在开发它的计算库,尤其是量化的开发者能够在 Alveo 当中使用这些数据函数进行最优化的编码,同时能够在我们这个平台上完成其他的应用设计,建立这样一个模型。这对于计算加速来说是非常重要的扩展,尤其能够把所有的数学函数都吸收进来。


4、电子贸易业务

金融界有这样一个从技术到交易的衡量指标,就是看你获得市场数据之后下单完成交易之间需要多长时间。如果使用 U50,就可以在不到 500 纳秒的时间内,首先收到市场数据,然后用综合的 C 语言来写一个交易逻辑,跟这样的交易逻辑进行执行和回应。Jamon Bowen 表示,如果用 CPU 的话,第一步首先要从网络上把这个数据放入到界面的接口,然后进行缓存,如果是单向的话,它要耗时 400 纳秒。而且这仅仅是第一步,第一步首先把这样一个数据包先进入到它内存的层级,而且数据进去之后,数据的运行环境首先要发出信号,说明这个运行环境发生了变化。然后这个网络再把信息进行解码,从用户转变为核心,然后再把它传输给需要执行交易的部分。而且整个过程需要不断持续。而整个过程大概需要 10 毫秒,所以,在时间方面,CPU 比 U50 多出近 20 倍,而且所有时间几乎对于 CPU 来说仅仅只能够完成将数据进入到 CPU 内存层级第一步的时间,而这个时延在这个领域是非常关键的一个决胜因素。对于这个应用来说,它的时延也是非常关键的。而且我们这种应用使它训练的基础设施和交易地点也非常接近,因为一般来说,都在证券交易所数据中心里,所以 U50 的小尺寸在这方面拥有非常好的优势,能够顺利接入到数据中心。


5、计算存储

刚才讲的是网络,现在来看一下存储。计算存储现在越来越重要,而且有这样一个趋势,就是计算离存储越来越近。

 


过去,很多字节都需要一系列传输的程序才能进行处理,非常复杂,比如要压缩、解压,还要进行数据保护,比如加密、解密,这里使用的是一个 GZIP 压缩吞吐量的指标,一个是使用 Alveo,一个是 CPU。因为每个字节都必须经过这样的流程,所以这里加速的带宽就非常重要了,此时,PCIe 第四代技术在这方面可以大放异彩,可以实现 20 倍的改善。


6、Hadoop 加速

下面看一下整体应用加速的例子,即 Hadoop。Jamon Bowen 表示,我们首先看数据,还有查询数据的工作量,它对带宽提出了很高的要求。如果要做高性能计算,这个数据就没办法去压缩,这样的话,基础设施就需要扩大一倍,而且还需要更多的存储,需要更多的存储带宽。如果用 U50 就可以非常顺利地进行压缩,而且还可以在高带宽的环境下来完成,这样你就没有必要选择到底要进行压缩,还是保留带宽。因为压缩之后,所需的存储空间只有原来的一半,需要的带宽也只有原来的一半。


所以,有了这样的加速之后,成本可能只有原来的 1/2,而且不仅仅可以进行压缩,同时还可以确保它的性能不会受到影响。Alveo 的用途非常广泛,虽然它并不像机器学习推断加速听起来这样的热门,但是它是非常实用的后端加速服务,能够帮助数据中心客户节约大量成本。

 


Jamon Bowen 表示,我们还做了一个两个双 CPU 的服务器和搭载两个 U50 的 Alveo 服务器,我们看到越来越多的单插头应用,AMD 在这方面部署与我们非常接近,它的 PCIe 线非常多,可以连接很多存储和加速器,所以,AMD 处理器加上我们的加速器是一个非常好的组合,可以完美取代 CPU 双插头的组合方案。