【技术分享】微软FPGA发展历程一览

2019-04-10 13:07:19 来源:elecfans
标签:

 

"2014年,微软在计算机架构领域的顶会ISCA上发表了一篇名为“A Reconfigurable Fabric for Accelerating Large-Scale Datacenter Services”的论文,详细介绍了微软Catapult项目团队如何在其数据中心里的1632台服务器中部署了英特尔StraTIx V FPGA,并用FPGA对必应(Bing)搜索引擎的文件排名运算进行了硬件加速,得到了高达95%的吞吐量提升。这篇文章一经发表,立刻轰动了整个业界。它是第一篇真正意义上详述由互联网/软件巨头开发并部署FPGA的专业论文,标志着FPGA第一次在互联网/软件公司的大型数据中心里得到实质性应用。同时也将微软Catapult项目引入大众的视野,告诉人们FPGA已不再仅仅是硬件公司的专属产品,而是可以有效的应用于像微软这样的互联网公司,并有机会部署在谷歌、亚马逊、脸书、阿里、百度、腾讯等其他互联网巨头遍布全球的成千上万台服务器中。"

 

 

Catapult项目的产生背景

微软对FPGA在数据中心里应用的研究起源于2010年底,当时微软正希望从一个基于PC软件的公司,逐步转型为提供各类互联网服务的企业。Catapult项目的负责人Doug Burger认识到,像微软这种体量的互联网巨头不能只提供软件层面的互联网服务,还要从根本上掌控最高效的网络硬件设备。

 

随着大数据时代的到来,包括人工智能在内的各类新应用不断涌现,网络带宽也由1Gbps不断增长为10Gbps、40Gbps直至100Gbps甚至更高。此时,传统的基于CPU的服务器和网络设备已无法满足日益增长的对计算量和网络带宽的需求。因此,寻找合适的网络加速设备势在必行。

 

虽然在很多微软高管看来,微软自研网络硬件设备就好比“可口可乐宣布要做鱼翅”,但Doug Burger还是得到了当时担任必应(Bing)搜索引擎负责人陆奇的鼎力支持,并最终向时任微软CEO鲍尔默及其继任者纳德拉展示了FPGA在加速数据中心实际应用时的巨大潜力。2016年,微软在计算机体系架构顶会MICRO上发表了名为“A Cloud-Scale AcceleraTIon Architecture”的论文,系统介绍了Catapult的新一代架构和工作。至此,Catapult项目已经历三个阶段。

 

单板多FPGA

在Catapult项目最初期,微软采用了单板多FPGA的方案,即每块加速卡上集成6片Xilinx VirTIx-6 FPGA,各FPGA之间通过自身的通用I/O端口相连和通信。然而,这种大型加速卡在实际部署时遇到了很多问题,最主要的有以下三点:

1.灵活性极差。如果某种大型应用需要多于6片FPGA,则无法用该方案实现。

2.同构性极差。由于功耗、供电和尺寸限制,这种大型板卡很难直接部署在数据中心的高密度服务器上。

3.稳定性不足。在这种大型板卡中,任何元件发生故障都有可能造成整个板卡的失效,继而可能导致相关服务器和应用的错误。

 

单板单FPGA

这个阶段的工作是Catapult项目第一个代表性成果。与前一阶段相比,加速卡架构从单板多FPGA,变成了单板单FPGA的结构。第二代FPGA架构的主要特点是使用了Shell&Role结构。

 

Catapult项目第二阶段的最主要工作之一,是将Bing搜索引擎中原先超过3万行C++代码的文件排名运算,卸载到了FPGA上进行硬件加速,并得到了惊人的结果。

 

下图总结了这项工作最具代表性的结果,即使用FPGA后与纯软件方案的对比。其中,坐标横轴代表系统延时,纵轴代表吞吐量。由于纯软件方案已经经过了深度优化,因此这个比较结果具有极高的说服力。

 

 

这个结果可以从两个方面解读:

当系统延时相同的情况下,采用FPGA进行硬件加速后吞吐量提升了接近一倍;

对于相同的吞吐量要求,采用FPGA后系统延时会下降29%。由此可见采用FPGA后,系统整体性能得到了大幅度提升。此外,每个FPGA带来的额外功耗小于25W,相比原系统而言增加了不到10%,且总体成本的增加不超过30%。整个系统只有在部署初期发现了7块板卡发生了硬件故障,占总板卡数量的0.4%。在之后几个月的运行中,所有板卡都稳定运转,足以证明FPGA系统的稳定性。

 

FPGA资源池化

第二阶段的工作最主要的问题是,为了实现FPGA之间的低延时通信,引入了一个6x8的二维Torus网络。相比于传统数据中心网络TOR交换机直连CPU的结构,这个Torus网络相当于在当前数据中心网络里额外增加了一个二层网络,而这个二层网络在扩展性和同构性方面带来了很多问题。

 

为了解决问题,微软在2016年发表了Catapult新一阶段的工作,最主要的贡献是取消了FPGA互连的第二级网络,直接将FPGA与数据中心网络进行互连。

 

和上一个版本相同,CPU可以通过PCIe访问FPGA,并使用FPGA为各类计算任务进行加速运算。除此之外,新版本的硬件布局还带来了以下几点好处:

1. FPGA可以被用来加速数据中心的各类网络和存储功能。

2. 微软在自家数据中心的5670个服务器里部署了新一代的FPGA加速卡,遍布全球五大洲的15个国家。

 

为了实现对池化FPGA资源的统一管理和分配,微软提出了一种硬件即服务(Hardware-as-a-Service)”的使用模型

性能方面,Catapult被正式部署在微软的Azure云数据中心,并将必应搜索引擎的页面排序算法进行了FPGA加速,对于给定的延时要求,相比于深度优化后的软件实现,FPGA可以轻松达到2.25倍的吞吐量提升。

 

同时,微软还对比测试了使用远程FPGA获得的结果,使用远程FPGA与使用本地FPGA相比,并没有明显的性能差异。这证明了LTL协议与HaaS使用模型的有效性。

 

由此,Catapult第三阶段的工作很好的解决了FPGA在大型数据中心里部署的灵活性和扩展性问题,为今后FPGA的大规模部署打下了坚实的基础。在2017年,微软推出了一款基于FPGA的深度学习加速平台,名为“脑波(brainwave)”项目。脑波项目代表着FPGA在数据中心里的应用正式扩展到人工智能领域。

 

结尾

微软的Catapult项目可以称作是FPGA在大型商业数据中心里进行大规模部署和使用的开山之作,直至目前仍然也是这个领域最具代表性的工作。Catapult兼顾了学术创新和工程的实用性,这样对于业界其他公司更具有直接的借鉴意义。在结果方面,微软使用了自家已经深度优化的纯软件方案作为对比,使得FPGA取得的显著性能提升更具可信度和说服力。

 

有趣的是,除了项目初期的原型验证外,微软均采用了Intel/Altera的FPGA芯片,微软也一跃成为英特尔FPGA的最大客户之一。有人曾断言,那些年叱咤风云的“Wintel”联盟,在后PC时代终将土崩瓦解。然而,在风起云涌的大数据和AI时代,伴随着两家公司的一步步华丽转型,Wintel组合正通过FPGA再一次获得新生。

 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

继续阅读
华为再受打击:微软云服务器已将其删除

继华为MateBook X Pro在微软在线商店“神秘”消失后,彭博最新消息显示,微软已经从其云服务器目录中删除了华为。

华为事件始末,科技创新必将实现

但这只不过是崛起之路上的一片绊脚石罢了,科技创新必将实现,到那会再看,这些打压手段不过是垫脚石罢了。

物联网发展迎来新的活力,作为FPGA业界的佼佼者,赛灵思的表现会是如何?

近些年来,物联网的发展为工业和医疗领域带来了新的活力。由此,也催生了工业物联网(IIoT)和医疗物联网(HcIoT)的创新。这些新兴领域的崛起,为FPGA的发展提供了机会。作为FPGA业界的佼佼者,赛灵思在工业物联网和医疗物联网领域上的表现如何?

AI应用扩张,FPGA的市场规模未来四年有望达52亿美元?

过去几年,FPGA的CAGR大约一直保持在8-10%左右,随着该类器件在AI应用中的扩张,未来5年其CAGR增长将高达38.4%!根据市场调研公司Semico Research的预测,人工智能应用中FPGA的市场规模将在未来4年内增长3倍,达到52亿美元。

微软出版新书深入探讨AI在制造业中的作用

今天,微软宣布推出一本新书“未来计算:AI和制造业”。这是其未来计算系列的第二本书,第一本是去年推出的“未来计算:人工智能及其在社会中的作用”。

更多资讯
MachXO3D FPGA和sensAI 2.0同时发布,莱迪思用FPGA诠释AIoT
MachXO3D FPGA和sensAI 2.0同时发布,莱迪思用FPGA诠释AIoT

“FPGA的应用设计是从FPGA本身的灵活性出发的,只是刚好AI能够在乘法器和加法器上跑运算,因此FPGA的SoC和ASIC属于健康竞争的关系,更多时候是优势互补,通过性能搭配实现双赢。”

Spectral Edge在台北国际电脑展展示突破性FPGA图像信号处理器

位于英国剑桥的数码图像处理IP公司Spectral Edge已被Talents@Taipei机构认证为创新型初创公司,并获邀参加台北国际电脑展(Computex Taipei)(全球性计划的一部分),在台湾推动国际商务关系发展。

Achronix推出突破性的FPGA系列产品,以面向高带宽数据加速应用的灵活性而将性能提升到全新高度

基于现场可编程门阵列(FPGA)的硬件加速器件和高性能嵌入式FPGA(eFPGA)半导体知识产权(IP)领导性企业Achronix半导体公司(Achronix Semiconductor Corporation)今日宣布:推出创新性的、全新的FPGA系列产品,以满足人工智能/机器学习(AI/ML)和高带宽数据加速应用日益增长的需求.

预测2021年50%GDP为数字化,做FPGA的出路在哪?

数字化转型进入加速期,需要高效且灵活应变的系统,异构计算将大行其道,而FPGA堪当重任。

莱迪思新版sensAI实现10倍的性能提升,助力网络边缘低功耗、智能IoT设备

莱迪思半导体公司(NASDAQ: LSCC),低功耗、可编程器件的领先供应商,今日宣布其屡获殊荣的Lattice sensAITM解决方案的性能和设计流程将获得大幅增强。莱迪思sensAI提供了全面的硬件和软件解决方案,能为网络边缘的智能设备实现低功耗(1 mW-1 W)、实时在线的人工智能(AI)。

电路方案