云服务商纷纷部署FPGA,让计算密集型应用大幅度提速

2017-10-30 11:22:11 来源:EEFOCUS
标签:

机器学习大数据分析、实时视频流处理等计算密集型应用不断涌现,云计算的应用范围也不断扩展,通过增加CPU数量提升计算能力的方式已经失去优势,云服务提供商把目光转向“异构计算”。FPGA在加速方面的优势有目共睹,云服务商纷纷部署专为加速各种高性能工作负载而优化的计算引擎。首届赛灵思开发者大会在北京举行,作为会议主办方,赛灵思及来自云计算产业链的硬件工程师、软件工程师和嵌入式工程师齐聚一堂,进行了技术交流和产品分享。

 

众所周知,软件工程师的数量远远大于硬件工程师的数量,而随着FPGA的应用领域不断扩大,只靠硬件难以服务于广大的软件工程师和嵌入式工程师,因此赛灵思进行了重要转型。赛灵思IP产品开发高级副总裁Salil Raje介绍,“从C++到RTL的转换是赛灵思转型的核心,包括高层次综合工具和软件应用工具。这一转型体现在两个方面:一是在芯片方面;二是在软件工具上面。如今赛灵思引入了面向大规模数据中心和加速器领域的SDAccel可重配置加速堆栈,以及面向嵌入式系统的SDSoC堆栈,把足迹扩展到从数据中心到嵌入式系统的广阔领域。以嵌入式系统市场为例,SoC和FPGA的工程师规模大概有10万名,预计在五年的时间里,我们的潜在用户会增加五倍,数量从5万增加到25万。”

 



在解决方案设置上,赛灵思为更多用户的差异化创新提供支持。Salil Raje解释,“在端上,有SDSoC开发软件加上reVISION堆栈,开发者可以形成新的使用MPSoC的开发方式;在云上,有SDAccel加可重配置加速堆栈帮助客户在云端开发应用。由此可见,在端上,用SDSoC和reVISION堆栈可以写出嵌入式的应用,在云上,SDAccel和可重配置加速堆栈使得IP可以作为处理器在云端运用。reVISION堆栈的目标应用是自动驾驶汽车、无人机、监控,可重配置加速堆栈的目标应用是超大型数据中心和FPGA加速应用。”

 


左:赛灵思战略市场发展高级总监Andy Walsh
中:赛灵思IP产品开发高级副总裁Salil Raje
右:赛灵思全球销售和市场部亚太及日本地区总监Stephen Chow

 

FPGA加速帮助多种应用实现提速

 


FPGA云加速有多厉害?这需要应用案例来证明。赛灵思战略市场发展高级总监Andy Walsh介绍了来自深鉴科技、NGCODEC、Ryft和Edico基因组的应用。其中,深鉴科技通过FPGA进行机器学习推断、语音识别,速度可以提高40倍;NGCODEC利用FPGA做视频解码,HEVC编码的帧速率达到10倍加速;弹性搜索是现在企业最广泛使用的搜索工具,这可以帮他们找到需要的数据,同时把噪音或者干扰的数据分离出去,Ryft专门做大数据搜索,核心竞争力在算法,他们使用FPGA开发了一款应用,可以使弹性搜索加速90倍;在医学领域,重危新生儿的基因组测序和基因学分析需要快速出结果,现在通过Edico基因组对医学的贡献,可以把基因组分析和测序的时间压缩从24小时压缩到20分钟,这一研究结果已经进入到吉尼斯世界纪录里面。

 

Andy Walsh强调,“Edico除了在亚马逊云上直接向医院销售以外,还可以向软件提供商销售服务,可以在云上面把服务销售给医院和科研机构。 Edico的例子对于赛灵思意味着,规模化会带来巨大的影响。我们只需要很少数量的云生态系统,就可以联系到几千家企业和几百万个用户。”

 

FPGA和CPU的集成对两者都造成损害
“CPU+FPGA”的异构架构已经得到大量应用,但是业界一直在寻求更低功耗、更快速度的解决方案,英特尔自从收购Altera以后,一直致力于把CPU和FPGA进行单芯片集成,从而缩小芯片面积、提高CPU和FPGA的通信速度,但是这种做法是否切实有效?Andy Walsh表示,“过去一年半的时间里,FPGA和CPU的集成方式在云计算领域并不是特别受欢迎,它对两者的性能造成很大的损伤,甚至更加严重的损坏,在加速应用中,超大规模的数据中心需要非常高端的加速器,串联进行联合。而且FPGA和CPU集成在功耗上的改善非常有限,一般都是一个中档CPU和低端的FPGA以1:1的方式组合,这并不是一个非常好的解决方案,不能满足以上的使用案例,而以上的这些案例才是驱动FPGA应用的最大动力和发展趋势。”

 

“现在我们有一个名叫CCIX的倡议,赛灵思是发起者之一,FPGA和CPU之间的一个C16高速接口,所有FPGA的销售商都一起合作,促成FPGA和CPU的结合,包括华为也在做有利于FPGA和FPGA之间结合的协同工作。”Salil Raje补充。

 

未来FPGA是否会取代CPU?
FPGA的性能越来越强大,应用范围也在不断扩展,可能会有人问,在未来FPGA能否取代通用CPU或者脱离CPU独立运行? Salil Raje指出,“在云以外的一些应用FPGA可以取代CPU,但是如果在云上,FPGA更多被视为一种协处理器,可以减少CPU的数量。在配置方面,一个CPU加八个、十个FPGA,它们相互可以交流,从而减少CPU的数量,但是主机还是CPU。FPGA在其它应用当中完全独立于CPU运行,比如很多最终使用场景,如监测摄象头就不需要额外的CPU,因为在Xilinx的方案中既有FPGA又集成了ARM架构的CPU,。还有一些无线通信无线通信只需要FPGA,不需要CPU。”

 

在大会现场,我们还看到了赛灵思的合作伙伴展出的产品及演示。

 


深鉴科技:基于赛灵思深度学习和语音加速方案

 

随着微信、微博的发展,视频内容大量产生,而大部分是无效信息,而且视频内容处理起来非常复杂,深鉴科技选择在模型上删除不重要的部分,使模型更小但效果更高,模型变小之后再进行压缩提高效率;随后使用一个训练模型,这个模型采用低精度的数据,在计算的时候速度更快。在研发过程中,深鉴科技发现FPGA比GPU快10倍,比CPU快30到40倍。而且FPGA延时非常低,这对于以推测为基础的机器学习来说非常重要,而且FPGA非常灵活,可以适用不同的机器学习的应用模型。

 


华为云FP1高性能实例演示

 

华为的这一实例展现了Gzip压缩算法,左边是经过FPGA加速的压缩处理过程,右边是通过CPU视频处理的过程,可以看出左侧的压缩速度远远快于右侧,可见FPGA加速方案性能相对于CPU有近4倍的提升,动态逻辑加载和切换实现秒级完成。

 

与非网原创报道,未经允许,不得转载!

 

更多相关内容,请参照:与非网FPGA专区

 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

作者简介
郭云云
郭云云

与非网北京站编辑,网名:咖啡不解困。混迹在电子社区,混迹在电子产业圈,虽不如工程师懂技术但也算半个电子人,喜欢听别人讲故事,喜欢思考电子圈的是是非非,更喜欢发表自己的“正理邪说”,时刻保持对所见所得的思考。

继续阅读
一个新项目的PCB设计不能超过三次打板
一个新项目的PCB设计不能超过三次打板

2005年到一个研究生同学的公司去参观,得知他们公司的一款产品已经做了两年依然还没有定型,让我感觉比较奇葩的是 - 公司7、8个硬件工程师,几乎每个人的桌子下面一个框子,筐子里丢的都是各个版本的板子,每个板子上都已经被折腾得乱七八糟,各种飞线以及切割的痕迹。

对于电商巨头来说,亚马逊在印度市场胜算几何?
对于电商巨头来说,亚马逊在印度市场胜算几何?

像印度的许多社区商店一样,Sri Lakshmi Venkateshwara Kirana(kirana,印度的私营小店)又小又挤——袋装洗发水和薯片被挂在天花板的挂钩上,柜台上的罐子里装满了五颜六色的糖果和小零嘴,一袋袋大米和扁豆堆得齐腰高,几乎占据了店内所有的空间——这个位于南部马迪基尔村的kirana几乎什么都卖。

五角大楼“内定”亚马逊?
五角大楼“内定”亚马逊?

最近,谷歌不高兴,IBM、甲骨文发文抗议:亚马逊AWS最有可能独吞国防部100亿美元的大单,未来或称霸云计算市场。而无论是在合同投标条件还是执行周期上,国防部对亚马逊似乎有偏爱,仿佛“内定”亚马逊。

吉尼斯世界纪录?AMD携赛灵思宣布了一项新的AI推理世界纪录

今天,在加州圣何塞的赛灵思开发者论坛上,我们的CEO Victor Peng与AMD CTO Mark Papermaster共同迎来了“吉尼斯”。不要误会,这不是装在瓶里的啤酒,而是写在本上的世界纪录。

AI要真正落地,还需要哪些推力?

现阶段AI的落地应用成为AI比拼的新赛道,开启了万里长征的第一步。但细究落地的背后含义,其实就是一场将AI触角延伸至B端及C端的过程,而这会走像PC一样的普及之路吗?如果真要让AI普及,还需要哪些“神助攻”?

更多资讯
从FPGA到ACAP,“万能芯片” 的华丽转身
从FPGA到ACAP,“万能芯片” 的华丽转身

FPGA被誉为“万能芯片”,能量就只有这么一点?当然不是的,目前FPGA在数据中心领域已经得到认可,加速卡解决方案成为数据中心的首选。而人工智能通过深度学习算法在认知智能和推理智能上遇到难题,擅长推理的FPGA被寄予厚望。

《深度强化学习》手稿开放

一年前,机器之心发布了加拿大阿尔伯塔大学计算机系博士 Yuxi Li 的深度强化学习综述论文,该论文概述了在深度强化学习(Deep Reinforcement Learning)方面喜人的进展。而这本刚上线的《深度强化学习》手稿对前面的版本《深度强化学习综述》做了大规模的改进;从一年多前的 70 页扩充到现在的 150 页。

GICv3架构中,对中断的分组解析

GICv3架构中,对中断进行了分组。分成了以下三个组

想要学好大数据需掌握这十二大技术

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。

基于SRAM工艺FPGA的保密性问题

在现代电子系统设计中,由于可编程逻辑器件的卓越性能、灵活方便的可升级特性,而得到了广泛的应用。

Moore8直播课堂