剑指 CPU 和 GPU,FPGA 开辟新战场

2019-08-08 14:14:43 来源: 半导体行业观察
标签:
CPU   GPU   FPGA

在网络、计算和存储领域,越来越多的应用需要专用的架构,以使硬件能够和算法进行匹配,从而达到最佳运行效果,或者是提高它的运行速度。现在,网络上有很多不同的数据,这些数据在运行过程当中,它的要求是不一样的。现在这个网络可能和下一代网络不一样,和下下一代网络就更不一样了。所以,就需要硬件能够跟上这些领域专用架构的要求,同时还要提升它的性能,充分发挥硬件的功能。


而要满足以上需求,FPGA方案是一个不错的选择,原因自然是其强大的灵活性。


2018年3月,赛灵思CEO Victor peng上任伊始,就宣布了该公司从器件到平台转型的三大策略,其中之一就是数据中心优先策略。去年10月,赛灵思推出了ACAP这个新的产品类别,同时推出了Alveo平台——面向数据中心加速的第一款自适应计算加速卡,去年11月,该公司推出了Alveo产品U280,而就在本周,赛灵思又推出了Alveo新品U50,把赛灵思数据中心优先策略往前推进了一步。


Alveo U50是专门面向所有服务器和云打造的业界首款自适应计算、网络、存储加速器。2018年赛灵思推出Alveo产品的时候,该公司就有这样一个愿景:不仅加速计算,而且同时加速网络和存储,实现在Alveo平台上的整体加速。在一系列数据中心的关键负载应用中,通过U50 这个Alveo平台扩展产品,显著改善吞吐量、时延和功耗效能。


据赛灵思数据中心业务部产品规划和市场营销总监Jamon Bowen介绍,Alveo U50是支持PCIe的一张卡,不是像GPU加速器那样的很大型的卡,像那样的卡用于电脑没有问题,但作为网络和存储加速就不行了。我们采用UltraScale+的架构,还集成了超高带宽的HBM2存储器技术,所以大幅缩小了这个产品的尺寸。因为内存现在加在了FPGA芯片上,所以不仅能够释放巨大的空间,还能使性能获得显著提升。

 


另外,U50用的是第四代PCIe即插即用型卡,也就是说采用的是市面上最前沿的技术,这是很多服务器刚刚开始支持的标准。此外,U50还有很多网络端口,Jamon Bowen表示,现在有越来越多的用户都在使用网络端口,相信随着我们产品进一步扩展,会有越来越多网络方面的用例。而且它的功耗也完全能够符合大家的预算要求,不到75瓦。

 

Alveo的优势

Jamon Bowen表示,我们从数据中心客户那里听到的一个最大的抱怨就是器件编程非常困难,Alveo就简化了硬件编程程序,它有一个非常开放的平台和环境,让开发者能够更加便捷地使用我们这个平台。如果有越来越多的开发者到我们这个平台上做开发的话,我们也会加入更多的云、更多的产品,并且能够实现原来只有在软件部分才有可能的硬件IP的灵活应变能力。

 

 

在具体应用方面,U50最主要的一些解决方案涵盖的领域包括数据分析、视频与图象处理、机器学习、生命科学和金融计算。Jamon Bowen表示,我们有非常广泛的客户和伙伴,都在用Alveo这样一个平台的生态。我们在上面也加入了很多IP和驱动来支持我们的合作伙伴和开发者。而且我们非常高兴地看到,我们希望这个生态系统能够开发一个全堆栈的解决方案,所以自Alveo推出不到一年的时间,现在已经有很多的生态合作伙伴推出了基于Alveo的解决方案。已发布的应用已经是2018年10月的2倍,而我们培训的开发者已经是那时候的4倍。


另外,因为赛灵思的产品是非常商业化的,而且是现成的标准化的产品,包括驱动,能够调动整个IT界的积极性,大家共同努力,和开源框架进行连接。Jamon Bowen表示,用我们的产品时,可以直接使用Kubernetes和docker的产品。因为是非常标准化的产品,Kubernetes当中可以直接有这样一个插件,它可以在系统内部很快反映出来有Alveo这样一个加速硬件。另外,开发者也可以把它和docker配合起来使用,第一步对Alveo进行编程,然后系统中也能体现出这样一个加速应用。如果没有这样一个标准化的产品配置的话,客户可能需要花费大量的投资才能实现这个功能。所以,这对于一些超大规模数据中心的应用来说是非常有必要的,既可以在云端,也可以用Alveo在本地进行加速,而且是一个非常开放式的架构,可以进行全面的加速。大家只要在Kubernetes的框架当中来看到我们这个插件,就一目了然了。

 


U50的应用

下面看一下Alveo U50的一些应用情况。


1、语音翻译

首先看语音翻译的计算负载加速,使用的是Alveo U50来实现这方面的功能,而不是GPU。从Alveo U50和CPU、GPU在语音翻译加速功能的比较来看,Alveo U50最重要的一个实现特征就是它的高吞吐量和低时延的推断性能,对于这个应用来说,这两个特点是非常重要的。因为在这个领域当中,用到的机器学习和之前的神经中枢网络是不一样的,而这个正是Alveo U50的优势所在。

 


将Alveo U50 和英伟达T4 相比,性能提升了10倍。Jamon Bowen表示,我们的性能非常优越,能够用于很多不同的网络。机器学习的推断还要求更低的时延推断来支持这样的案例,而且要求我们的硬件能够支持这样的推断,还要离数据源非常近。U50的小尺寸非常契合需要边缘计算的用例场景。


2、数据库分析

数据库分析方面的加速是完全不同的场景,主要是用于一些商业信息分析领域,如数据库查询加速运行的TPC-H Query5这样的体系,主要是一些商业营销决定的决策查询或者咨询建议。有很多企业都会面临这样的决策,他们有一个很庞大的数据库,里面有很多供应商,有很多的产品,也有很多的销售数据。在这个加速过程当中,会用到很多的标签节点,会列出很多相关的表格,然后进行具体的查询。在每一个节点对带宽的要求都是非常高的,而带宽又是顺利进行加速的关键点。

 


Jamon Bowen表示,我们做了一个比较,采用的是一台没有加速的英特尔最先进的多核处理器XEON系列产品,和我们加入了Alveo U50的结果比起来, 处理速度提升4倍,而且这时因为U50卡尺寸非常小,可以使用多张卡的形式,因为它的尺寸非常小,所以要进行多倍数的加速也是可以做到的。


3、金融市场建模

还有一个例子是金融,金融领域很多都是需要建模的,这样才能给这些金融工具定价。通常是有非常大量的数据输入,然后做几百万字的模拟,最后得出来一个平均值,得到一个结果的范围来确定在最糟糕的情况下它的风险是什么样的。


Jamon Bowen表示,我们在这里也进行了一项比较,一个是使用Alveo U50,还有用的是英伟达第一版的GPU,还有英特尔的CPU,我们和他们性能的比较都达到了20倍,同时,我们的成本只有GPU的一半。我们之所以能够实现这样的加速,就是赛灵思一直在开发它的计算库,尤其是量化的开发者能够在Alveo当中使用这些数据函数进行最优化的编码,同时能够在我们这个平台上完成其他的应用设计,建立这样一个模型。这对于计算加速来说是非常重要的扩展,尤其能够把所有的数学函数都吸收进来。


4、电子贸易业务

金融界有这样一个从技术到交易的衡量指标,就是看你获得市场数据之后下单完成交易之间需要多长时间。如果使用U50,就可以在不到500纳秒的时间内,首先收到市场数据,然后用综合的C语言来写一个交易逻辑,跟这样的交易逻辑进行执行和回应。Jamon Bowen表示,如果用CPU的话,第一步首先要从网络上把这个数据放入到界面的接口,然后进行缓存,如果是单向的话,它要耗时400纳秒。而且这仅仅是第一步,第一步首先把这样一个数据包先进入到它内存的层级,而且数据进去之后,数据的运行环境首先要发出信号,说明这个运行环境发生了变化。然后这个网络再把信息进行解码,从用户转变为核心,然后再把它传输给需要执行交易的部分。而且整个过程需要不断持续。而整个过程大概需要10毫秒,所以,在时间方面,CPU比U50多出近20倍,而且所有时间几乎对于CPU来说仅仅只能够完成将数据进入到CPU内存层级第一步的时间,而这个时延在这个领域是非常关键的一个决胜因素。对于这个应用来说,它的时延也是非常关键的。而且我们这种应用使它训练的基础设施和交易地点也非常接近,因为一般来说,都在证券交易所数据中心里,所以U50的小尺寸在这方面拥有非常好的优势,能够顺利接入到数据中心。


5、计算存储

刚才讲的是网络,现在来看一下存储。计算存储现在越来越重要,而且有这样一个趋势,就是计算离存储越来越近。

 


过去,很多字节都需要一系列传输的程序才能进行处理,非常复杂,比如要压缩、解压,还要进行数据保护,比如加密、解密,这里使用的是一个GZIP压缩吞吐量的指标,一个是使用Alveo,一个是CPU。因为每个字节都必须经过这样的流程,所以这里加速的带宽就非常重要了,此时,PCIe第四代技术在这方面可以大放异彩,可以实现 20 倍的改善。


6、Hadoop加速

下面看一下整体应用加速的例子,即Hadoop。Jamon Bowen表示,我们首先看数据,还有查询数据的工作量,它对带宽提出了很高的要求。如果要做高性能计算,这个数据就没办法去压缩,这样的话,基础设施就需要扩大一倍,而且还需要更多的存储,需要更多的存储带宽。如果用U50就可以非常顺利地进行压缩,而且还可以在高带宽的环境下来完成,这样你就没有必要选择到底要进行压缩,还是保留带宽。因为压缩之后,所需的存储空间只有原来的一半,需要的带宽也只有原来的一半。


所以,有了这样的加速之后,成本可能只有原来的1/2,而且不仅仅可以进行压缩,同时还可以确保它的性能不会受到影响。Alveo的用途非常广泛,虽然它并不像机器学习推断加速听起来这样的热门,但是它是非常实用的后端加速服务,能够帮助数据中心客户节约大量成本。

 


Jamon Bowen表示,我们还做了一个两个双CPU的服务器和搭载两个U50的Alveo服务器,我们看到越来越多的单插头应用,AMD在这方面部署与我们非常接近,它的PCIe线非常多,可以连接很多存储和加速器,所以,AMD处理器加上我们的加速器是一个非常好的组合,可以完美取代CPU双插头的组合方案。

 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

继续阅读
都说十代酷睿笔记本十分厉害 现在就来告诉你强在哪里

随着Computex 2019英特尔正式宣布第十代酷睿处理器平台,新品在随后的几个月内不断涌现在大伙面前。面对着全新的酷睿平台,对于普通玩家而言多少有点手足无措,听说第十代酷睿很强,具体强在哪儿又很难说清。花大价钱买笔记本,最害怕买得不明不白。现在就让笔者来总结一下,第十代酷睿笔记本,厉害在什么地方。

以 RDMA 网络为切入点,分析 MMU 水线设置思路
以 RDMA 网络为切入点,分析 MMU 水线设置思路

RDMA(远程直接数据存取),以其对业务带来的高性能、低延时优势,在数据中心尤其是AI、HPC、大数据等场景得到了广泛应用。

A13 强大的背后:外观奇葩缺乏 5G,但处理器才是霸主

在一份疑似iPhone 11 Pro的Geekbench 4.4跑分成绩中,A13芯片的CPU取得了5472/13769的单核/多核分数。

三星 Exynos 980与华为麒麟 990 对比,华为不选用Cortex-A77 架构的原因是什么?
三星 Exynos 980与华为麒麟 990 对比,华为不选用Cortex-A77 架构的原因是什么?

华为于IFA 2019主题演讲期间发布新一代Kirin 990 5G与Kirin 990处理器,前者主要整合5G Modem规格,也是全球首先发布采用7nm EUV的5G处理器;后者则整合4G Modem,在制程方面仅用7nm。

串口通信的优缺点解析,什么情况下适合用串口通信?
串口通信的优缺点解析,什么情况下适合用串口通信?

UART是用于控制计算机与串行设备的芯片。有一点要注意的是,它提供了数据终端设备接口,这样计算机就可以和调制解调器或其它使用RS-232C接口的串行设备通信了。

更多资讯
K-EMS创始团队推出BODYTIME

线下店超过100家的K-EMS创始团队在今年8月份正式推出了 EMS 产品的 C端品牌BODYTIME。

高通斥资 31 亿美元收购 TDK 射频前端股权,为 5G 提供强大优势?

与非网9月17日讯,据国外媒体报道,对于高通来说,一个重要但却被轻视的一个5G技术领域——射频前端(RFFE)技术,即将为该公司所有。

Qualcomm完成对RF360控股公司剩余股份的收购

Qualcomm Incorporated(NASDAQ: QCOM)宣布完成对RF360控股新加坡有限公司剩余股份的收购,这是其5G战略布局和领导力方面的又一重要里程碑,RF360控股新加坡有限公司是Qualcomm与TDK株式会社(TSE: 6762)[footnoteRef:2]成立的合资企业。

高云半导体发布GoAI--全球首例基于国产FPGA的人工智能解决方案

全球增长最快的可编程逻辑器件供应商—广东高云半导体科技股份有限公司(以下简称“高云半导体”),今日发布基于高云国产FPGA硬件平台的人工智能(AI)边缘计算最新解决方案—GoAITM

由点到面,国产FPGA产业链的突围之路漫漫

随着AI、大数据、物联网、无人驾驶等新兴技术的发展,FPGA凭借灵活性、可重构性赢得了更多增量市场。赛灵思的营收也一路高歌,在2019财年突破了30亿美元,年度增长高达24%,而全球FPGA市场规模在50-60亿美元,仅赛灵思一家就占据了半壁江山,加上英特尔PSG和Lattice拿走的市场份额,留个国产FPGA的市场空间所剩无几。