加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 专为 HPC 和大数据应用打造
    • HPC三大用例
    • 高性能计算领域FPGA加速器卡优势何在?
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

赛灵思推出其史上最强大FPGA加速器卡,硬刚CPU、GPU

2021/11/17
2563
阅读需 13 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

2021国际超算大会(SC21)期间,赛灵思宣布推出一款数据中心加速器卡 Alveo U55C,以及一款基于标准、API-driven 的集群解决方案,用于大规模部署 FPGA。这款加速器卡对赛灵思的特别意义在于:它是赛灵思史上最强大的Alveo加速器卡,专为HPC和大数据工作负载而构建,能够提供 Alveo 加速器产品系列中的最高计算密度和 HBM 容量。突破性的 HPC 集群解决方案与简化的可编程性,支持在现有客户基础架构和网络上实现大规模性能扩展。

赛灵思数据中心事业部高性能计算(HPC)产品经理Nathan Chang在接受与非网采访时表示,高性能计算正面临着百亿亿级(exascale)挑战,主要体现在三方面:第一,随着高性能计算迈向百亿亿级大关,功耗即将成为下一难关。第二,典型的高性能计算架构再难以提供可接受的单位功耗性能,这主要是因为CPU和GPU采用的冯·诺依曼架构存在局限性,数据迁移带来的挑战导致性能下降。为了最大限度提升性能,就必须在函数的转换中准备好数据,而僵化的存储器层级导致效率低下。第三,伴随以上问题,不可避免会浪费时序周期、降低工作效率、增大功耗。

赛灵思数据中心事业部高性能计算(HPC)产品经理  Nathan Chang

 

他强调,整个工作负载迁移和演变的方向,主要是受到存储器的带宽限制。如果没有办法解决存储器带宽的瓶颈,就没办法利用数据中心的规模。

正因如此,Alveo U55C专为大数据和高性能计算工作负载构建,它能够实现更高的数据流水线并行性、带来优化的存储器管理、优化整个流水线的数据迁移,以及实现出色的单位功耗性能。

赛灵思执行副总裁兼数据中心事业部总经理Salil Raje表示:“我们引入了基于标准的方法,可以支持客户利用现有的基础架构和网络创建 Alveo HPC 集群。借助这一方法,我们正将这些主要优势大规模应用于任意数据中心。这是实现 Alveo 和自适应计算在数据中心更广泛应用的一次重大飞跃。”

专为 HPC 和大数据应用打造

Alveo U55C卡采用单插槽、全高半长(FHHL)外形尺寸,最大功耗低至150W。与前一代双插槽Alveo U280卡相比,Alveo U55C提供了更高的计算密度,还将HBM2容量翻倍至16GB。U55C以更小的外形尺寸提供了更高的算力,有助于创建基于 Alveo 加速器的密集集群。它专为需要性能扩展的高密度流式数据、高 I/O 数学和大型计算问题而开发,例如大数据分析和 AI 应用。

“Alveo U55C非常重要的特性包括:第一就是采用RoCE v2、DCBx、MPI,在现有网络和基础架构上,为数据中心提供了尖端的计算集群;第二,应用开发人员可以利用Vitis平台上已有的一些API、库以及MPI,来扩展工作负载”, Nathan Chang总结。

 
具体而言,利用现有的开放标准和框架,不论所使用的服务器平台和基础架构如何,都可以将Alveo扩展到数百张卡,利用RoCE v2和数据中心DCBx的桥接,再加上200Gbps的带宽,在网络性能、延迟方面可以跟 InfiniBand抗衡。

MPI集成则可以帮助HPC开发者通过Vitis扩展Alveo数据流水线。通过Vitis,可以抽象出开发机器级代码的需要,比如RTL或Verilog,另外也能够让硬件设计嵌入到整个应用的开发过程中。现在,Vitis已经可以支持更多的高层次编程语言,如C、C++、Python语言等,都开始支持现在主流的AI框架,开发人员还可以通过API和SDK来加速关键工作负载。
 

HPC三大用例

用于全球最大射电天文望远镜天线阵列信号处理

CSIRO 是澳大利亚的国立研究机构,拥有全球最大的射电天文望远镜天线阵列。在CSIRO用于其平方公里阵列( Square Kilometer Array )射电望远镜的信号处理中,使用了Alveo U55C 卡。将 Alveo 卡部署为配备 HBM 的网络附加加速器,能够在整个 HPC 信号处理集群中实现大规模吞吐量。

Nathan Chang解释说,在这个世界上最大的射电天文望远镜天线阵列中,每平方公里有13.1万支天线,规模是21个节点,用了420张U55C卡,每个节点是20张卡,在集群里每秒通过的数据是15Tb。可以看到,要处理和通过的数据量非常庞大,并且还需要处理一些非常复杂的工作负载,比如光线生成模拟器,以及一些成像相关的功能。

据了解,该实验室也曾考虑过用GPU卡做集群搭建,但是需要双插槽GPU卡,要占用两个PCIe接口,同时也需要旁边的插槽来处理相关带宽需求,才能为板卡提供支持,这就需要三个PCIe插槽。相比起来,U55C卡有板载联网功能,使用的是一个插槽。

此外,由于该应用案例中,电源来自于可再生能源,对高性能、低功耗的要求很高。综上,赛灵思Alveo U55C卡成为了理想选择。基于 Alveo 加速器的集群使 CSIRO 能够处理海量计算任务,从 13.1 万根天线中实时聚合、过滤、准备和处理数据。420 张 Alveo U55C 卡通过支持P4语言的100Gbs交换机实现联网,在整个信号处理集群中提供了 460GB/s 的 HBM2带宽。Alveo U55C 集群的处理性能可达15Tb/s的总吞吐量,功耗更低且更具成本效益。据介绍,CSIRO 现正完成一项 Alveo 参考设计,以助力其他射电天文学或相邻产业获得同样的成功。

超并行数据流水线用于碰撞仿真软件

第二个应用案例是对Ansys碰撞仿真软件LS-DYNA进行性能加速。该碰撞仿真软件几乎用于全球所有汽车公司,因为安全性和结构系统的设计往往取决于模型性能,因其能以计算机辅助设计有限元方法(FEM)仿真来降低物理碰撞测试的成本。

Ansys LS-DYNA FEM 求解器是驱动具备数亿个自由度仿真的主要算法,而这些庞大的算法可以细分为更基本的求解器,如 PCG、稀疏矩阵、ICCG。

据Nathan Chang介绍,赛灵思在与LS-DYNA团队的合作过程中发现,他们为了支撑这个仿真求解器,占用了90%的运行时。由于稀疏矩阵计算需要大量数据访问,而现有CPU架构并不是非常理想,因为CPU缓存量很小,且CPU在访问系统内存数据的时候,会浪费一些时间周期,造成CPU核心利用度不高,导致性能下降。

“这个设计过程我们把它叫做‘数据流水线’,对于Alveo开发人员,在设计这个数据流水线的时候,每一个微小数据的调试都是非常重要的——这保证了我们从一个函数到另一个函数,在数据流水线里转移数据的时候,能够保持好动能。同时数据的转移也不会因为读和写的动作而受到限制,因为我们使用的是卡上的存储器”, Nathan Chang解释说,“我们在这些数据流水线中设计了一些微线路,让数据从一个函数到另一个函数做转移,不用再返回原来的函数上,所以我们称之为定制化数据迁移。”

与x86 CPU 相比,利用超并行数据流水线在大量 Alveo卡上进行性能扩展,LS-DYNA 能够实现超过5倍的性能加速。这能在一个 Alveo 流水线中提高单位时钟周期的工作效率,令 LS-DYNA 客户受益于突破性的仿真时间。

为大数据图分析提供加速

TigerGraph是一家图分析平台提供商,使用了多张 Alveo U55C 卡为两种最高效算法进行集群与加速,以驱动基于图的推荐和集群引擎。

Nathan Chang谈到,对于数据科学家而言,图数据库可谓一种颠覆性平台。因为数据孤岛越来越多,图数据库能够将数据从孤岛里提取出来,然后让数据科学家专注于数据之间的关系,而不是看单张图。换句话说,让关系成为数据库第一位重要性的成员。根据Gartner预测,到2025年,大约有80%的数据库会是图数据库。

图从信息孤岛中采集数据并重点关注数据间的关系,图领域的下一个前沿是实时查找答案,因为没有人愿意为了推荐结果而多做等待。Alveo U55C 将推荐引擎的查询和预测时间从数分钟缩短至数毫秒。与基于 CPU 的集群相比,使用多张 U55C 卡扩展分析所提供的出色计算能力和存储器带宽,可将图查询速度提升高达 45 倍。质量评分也提升高达 35%,从而显著提升置信度,将误报几率降至低个位数。

高性能计算领域FPGA加速器卡优势何在?

Nathan Chang表示,就目前在规划中的HPC架构而言,很多都非常专注于某一类型的工作负载,比如在设计、构建、架构方面,都是专门针对比较专用的工作负载。因此不会像过去一样,造非常大的机架,来处理非常高的数据量,现在更多是搭建专属的用例。当然,高性能计算总是需要CPU、GPU的,但是一些非常需要灵活性的专用设备对FPGA加速器卡有很大需求,并且FPGA具有低功耗优势。

根据Nathan Chang分享的一些专门研究HPC的分析师观点,认为加速器业务增长正在势头正猛的关口,不管是业务增长的速度,还是收入的占比,都超过了CPU。

“我们认为,未来会有越来越多的算力部署在专用加速器领域,而不是通用CPU上。这对于整个HPC服务器集群的降功耗目标都是有利的,因为专用加速器的功耗更低”, Nathan Chang补充,“高性能计算领域对于更加多样化且细分的计算平台需求,未来将不断增长。”

根据官方消息,Alveo U55C卡目前已可通过赛灵思官方渠道和授权分销商进行购买,该产品也可通过基于公有云的FaaS(FPGA-as-a-Service,FPGA 即服务)供应商进行简便评估,也可以通过选定的托管数据中心进行专属预览。集群解决方案现已提供专属预览,预计将于明年第二季度全面问世。 

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
EP2C8Q208I8N 1 Altera Corporation Field Programmable Gate Array, 516 CLBs, 402.5MHz, 8256-Cell, CMOS, PQFP208, LEAD FREE, PLASTIC, QFP-208
$39.64 查看
10M08SCU169C8G 1 Intel Corporation Field Programmable Gate Array, PBGA169, 11 X 11 MM, 0.80 MM PITCH, ROHS COMPLIANT, UBGA-169

ECAD模型

下载ECAD模型
$11.16 查看
A3P250-FG256I 1 Microchip Technology Inc Field Programmable Gate Array, 6144 CLBs, 250000 Gates, 350MHz, CMOS, PBGA256
$27.48 查看
赛灵思

赛灵思

赛灵思(英语:Xilinx (英语发音:/?za?l??ks/ ZY-lingks))是一家位于美国的可编程逻辑器件的生产商。该公司发明了现场可编程逻辑门阵列,并由此成名。赛灵思还是第一个无厂半导体公司(Fabless)。28nm时代,赛灵思提出All Programmable 的概念,从单一的FPGA企业战略转型为All Programmable FPGA、 SoC 和 3D IC 的全球领先提供商。且行业领先的器件与新一代设计环境以及 IP 完美地整合在一起,可满足客户对可编程逻辑乃至可编程系统集成的广泛需求赛灵思于1984年创建于美国加利福尼亚州的硅谷,总部位于硅谷核心的圣何塞,并在科罗拉多州、爱尔兰、新加坡 印度、中国、日本拥有分支机构

赛灵思(英语:Xilinx (英语发音:/?za?l??ks/ ZY-lingks))是一家位于美国的可编程逻辑器件的生产商。该公司发明了现场可编程逻辑门阵列,并由此成名。赛灵思还是第一个无厂半导体公司(Fabless)。28nm时代,赛灵思提出All Programmable 的概念,从单一的FPGA企业战略转型为All Programmable FPGA、 SoC 和 3D IC 的全球领先提供商。且行业领先的器件与新一代设计环境以及 IP 完美地整合在一起,可满足客户对可编程逻辑乃至可编程系统集成的广泛需求赛灵思于1984年创建于美国加利福尼亚州的硅谷,总部位于硅谷核心的圣何塞,并在科罗拉多州、爱尔兰、新加坡 印度、中国、日本拥有分支机构收起

查看更多

相关推荐

电子产业图谱

与非网资深行业分析师。主要关注人工智能、智能消费电子等领域。电子科技领域专业媒体十余载,善于纵深洞悉行业趋势。欢迎交流~