践行“数据中心优先”策略,赛灵思再发U50完善Alveo平台

2019-08-08 18:08:48 来源:EEFOCUS
标签:

IDC预测,到2025年,全球将有416亿台物联网设备,并将产生79.4 zettabytes(zb)的数据。虽然数据被看作未来的石油,但是同样也需要强大的算力将无序的数据加以提取,形成有用信息,才能给用户带来价值。由于数据在源源不断产生,只凭借CPU进行计算已经远远无法满足需求,于是设计人员开始采用异构架构为数据中心加速,FPGA发挥越来越大的作用。

 

作为FPGA领域的独角兽,赛灵思非常明白自身优势,去年3月,新任CEO Victor peng宣布公司从器件到平台转型的三大策略,其中非常重要的一项就是数据中心优先策略。去年10月,赛灵思推出了ACAP系列产品,同时推出了面向数据中心加速的第一款自适应计算加速卡Alveo平台,11月又快速推出了Alveo系列U280产品,但是赛灵思的愿景是不仅加速计算,同时加速网络和存储,因此近期在原来的基础上又推出了Alveo U50,将数据中心优先策略再次向前推进。

 

 

据赛灵思数据中心业务部产品规划和市场营销总监Jamon Bowen介绍,Alveo U50 卡是业界首款支持第四代PCIe ( PCIe Gen 4)的加速卡 ,特别为单个可重配置的 FPGA 平台就能大幅加速各种不同的关键计算、网络和存储工作负载而设计。相对U280擅长计算,U50在计算方面较弱,在网络和存储方面更强。

 

三大亮点:小尺寸、低功耗、可编程

Alveo U50具有三大特点:小尺寸、低功耗、可编程。

 

由于采用UltraScale+的架构,集成了超高带宽的HBM2存储器技术,率先使用半高半长的外形,Alveo U50尺寸大幅度缩小;通过支持标准的 PCIe 服务器插槽和仅相当于现有 Alveo 卡1/3的功耗,Alveo U50大幅扩展了自适应加速技术可以部署的范围,从而为要求严苛的计算、网络与存储工作负载带来了前所未有的高吞吐量与低延时。8GB HBM2 提供了超过 400Gbps 的数据传输速度, QSFP端口提供了高达100 Gbps的网络连接。此外,高速网络 I/O 还支持各种前沿应用,如NVMe-oF™解决方案(NVM Express over Fabrics™),解耦计算存储和专业金融服务应用。

 

Jamon Bowen强调,U50采用的是第四代PCIe即插即用型卡,这是市面上最前沿的技术,很多服务器刚刚开始支持这一标准,这种卡对于存储加速非常关键。

 

U50的重点是计算、网络和存储加速。Jamon Bowen对这一定位的解释是,现在的总体趋势是越来越多的应用需要专用架构,要求硬件和算法能够匹配,从而达到最佳运行效果。每一代网络都不尽相同,而且网络上的数据也不同,数据运行的要求也不尽相同。这就需要硬件能够跟上专用架构的要求,同时还要提升性能,硬件能够发挥它最优的功能。

 

在数据中心客户经常抱怨器件编程非常困难,Alveo具有开放的平台和环境,简化了硬件编程的程序,能够通过公共平台进行加速,让开发者便捷地使用这一平台。Jamon Bowen解释,随着越来越多开发者使用该平台,我们会加入更多产品,实现原来只有在软件部分才有可能的硬件IP的灵活应变能力。解决包括数据分析、视频与图象处理、机器学习、生命科学和金融计算等领域地问题。

 

对比CPU、GPU,性能大幅度提升

加速器性能到底提升多少?对比一下就会一目了然。赛灵思官方和CPU以及GPU进行了对比。

 

语音翻译应用加速

 

在语音翻译应用中,CPU和GPU无法实现高吞吐量与低时延推断性能,可以看出Alveo U50是英伟达GPU T4地10倍。

 

数据分析加速应用

 

在数据分析应用中,数据库查询加速运行TPC-H Query5体系,对比英特尔的多核处理器 XEON系列,加入Alveo U50的运行速度提升4倍,而且其尺寸较小可以加入多张卡,进行多倍加速。

 

金融建模应用

 

对比英特尔的CPU和英伟达的GPU,可以看出,一块Alveo U50性能是对应CPU和GPU的20倍,值得强调的是成本只有GPU的一半。Jamon Bowen解释,我们一直在开发计算库,尤其是量化的开发者能够在Alveo当中使用这些数据函数进行最优化的编码,同时能够在我们这个平台上完成其他的应用设计,建立这样一个模型。这个对于计算加速来说是非常重要的扩展,尤其能够把所有的数学函数都吸收进来。

 

电子贸易业务

 

金融界有一个从技术到交易的衡量指标,就是看你获得市场数据之后下单完成交易之间需要多长时间。如果用户使用U50,时延低于500纳秒,且性能稳定。相对于CPU,U50的性能在时间上是CPU的20倍。Jamon Bowen认为,使用Alveo进行加速,能够在很多网络端口完成应用的加速,而所需的时间往往是CPU刚刚开始进行对话的时间。

 

计算存储应用

 

在计算存储应用中,过去字节都传输到内存才能压缩、解压缩等处理,流程非常复杂,采用Alveo U50平台,压缩、解压缩、擦除编码、加密都在同一个平台上继续宁加速,是CPU性能的20倍。

 

 

再看Hadoop加速应用,如果要做高性能的计算,数据无法压缩,基础设施需要扩大一倍,而且还需要更多的存储带宽。如果采用U50既可以保留带宽也可以进行压缩,而且存储空间和带宽只需要原来的一半。因此部署成本只有原来的一半,在压缩的同时性能不会受到损失。

 

对比两个双CPU的服务器和搭载两个Alveo U50的Alveo服务器,可以看出,前者192TB,每个节点压缩吞吐量1GB/s,后者96TB(192TB有效),每个节点压缩吞吐量20GB/s。

 

为什么赛灵思的硬件运行速度改善如此之大?Jamon Bowen的解释是,要优化性能,要有定制的数据途径,还要有定制的进度。具备这两个条件后,应用才能够非常顺利的进行处理,而无需不断地进到一些存储的层级,经过非常复杂的流程就能直接处理。赛灵思在这方面能够给硬件加速,可以通过再编程的方式来调整一些设置。

 

异构计算是数据中心的未来,很多公司在拥抱加速架构为核心的解决方案,U50不仅能够提供硬件加速,而且还具有灵活应变的特性。Jamon Bowen认为,压缩技术日新月异,有ZS、ZT、LZ,还有超大规模客户发布一些新的压缩算法。我们能够在硬件层面上进行加速,还能够在硬件层面上实现可编程。一旦有了新的标准计算算法迭代之后,赛灵思就能够充分利用 FPGA 的灵活性,在我们平台上迅速部署,其它竞争对手很难做到。

 

与非网原创内容,未经允许,不得转载!

 

 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

作者简介
郭云云
郭云云

与非网副主编,网名:咖啡不解困。在电子产业圈混迹8载,喜欢听大咖讲产业故事,喜欢听牛人分析产业趋势,也喜欢发表自己的“正理邪说”,时刻保持对所见所得的思考。

继续阅读
FPGA近期频频刷“存在感”,它究竟有什么特别之处?

日前赛灵思推出最大容量FPGA芯片,阿里达摩院也发布了关于AI语音的FPGA芯片技术。FPGA芯片有何特别之处?它和当下最热的5G、AI领域又有何关系呢?据媒体报道,全球最大的可编程芯片(FPGA)厂

将Power指令集开源,IBM 是如何咸鱼翻身的?

这是一个漫长的过程,如果在十年前就这样做,情况可能会更好。但是,随着收购Red Hat后大量注入开源精神,IBM终于迈出了下一步,将其Power系列处理器的指令集体系结构开源。

快速掌握MIPI开发攻略,对接百度人工智能计算卡EdgeBoard

MIPI(移动行业处理器接口)是Mobile Industry Processor Interface的缩写,是MIPI联盟发起的为移动应⽤处理器制定的开放标准。

基于Verilog的UART接口电路设计
基于Verilog的UART接口电路设计

UART(UniversalAnynchrONousReceiverTransmitter,通用异步接收发送器)是广泛应用的串行数据传输协议之一,其应用范围遍及计算机外设、工控自动化等场合。

使用FPGA加速广告推荐算法的教程

在这篇文章里你可以了解到广告推荐算法 Wide and deep 模型的相关知识和搭建方法,还能了解到模型优化和评估的方式。我还为你准备了将模型部署到 FPGA 上做硬件加速的方法,希望对你有帮助。阅读这篇文章你可能需要 20 分钟的时间。

更多资讯
IBM宣布开源Power架构,国产处理器的另一个机会?
IBM宣布开源Power架构,国产处理器的另一个机会?

在正在进行的北美 OpenPOWER 峰会上,IBM 宣布开源 Power 芯片指令集架构(ISA,Instruction Set Architecture)。

继世界最大AI芯片诞生后,赛灵思发布最大FPGA芯片
继世界最大AI芯片诞生后,赛灵思发布最大FPGA芯片

赛灵思(Xilinx)今天宣布推出世界最大的FPGA芯片“Virtex UltraScale+ VU19P”,拥有多达350亿个晶体管,密度在同类产品中也是最大的,相比上代Virtex UltraScale VU440增大了1.6倍,而功耗降低了60%。

Xilinx推出拥有900万个系统逻辑单元的全球最大 FPGA

自适应和智能计算的全球领先企业赛灵思公司(Xilinx, Inc.,(NASDAQ:XLNX))今天宣布推出全球最大容量的 FPGA – Virtex UltraScale+ VU19P,从而进一步扩展了旗下 16 纳米 (nm) Virtex® UltraScale+™ 产品系列。

用FPGA如何实现小波变换?
用FPGA如何实现小波变换?

基于提升框架的小波变换方法,利用FPGA 可编程特性可实现多种小波变换。提升框架(LS :Lifting Scheme) 是由Sweldens 等人在近几年提出的一种小波变换方法,用它的框架结构能有效地计算DWT。

BittWare对Eideticom进行战略投资并拓宽基于FPGA的 NVMe加速器产品组合以将EDSFF纳入其中

Molex旗下的 BittWare 公司是一家采用FPGG技术的企业级 NVMe 存储平台领域领先供应商,宣布将对 Eideticom 进行战略投资并开展协作 – 后者在高增长的新兴计算存储市场上是广受认可的领导者。