加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 01.数据中心下一站:云原生超级计算
    • 02.给高性能业务上云开路!解读云原生超级计算的灵魂
    • 03.开业界先例实现公有云上的业务性能隔离
    • 04.结语:释放云的力量奔赴新型数据中心未来
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

三年节省上亿人民币!DPU如何改造大型数据中心?

2022/12/12
734
阅读需 14 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

作者 |  心缘
编辑 |  漠影

将HPC的超高算力搬到云上,什么技术路子这么强?

没有云计算厂商,会轻易放过大降成本的机会。云是未来,这在全球各大科技巨头的最新财报中已经得到明确的验证。最新财季,AWS净销售额同比增长27%,微软智能云收入同比增长20%,谷歌云收入同比增长37%,阿里云营收同比增长4%,百度智能云营收同比增长24%……承载着“让算力资源大众化”使命的云计算,形成了撑起科技巨头未来的新型支柱业务。

而要持续拉高算力峰值、提高客户上云服务体验,推进架构层的变革已是箭在弦上。技术迭代的洪流滚滚向前,被冠以数据中心“第三颗主力芯片”的DPU,正成为传统云计算架构向云原生超级计算升级的“底牌”。

01.数据中心下一站:云原生超级计算

云是未来,已是无可争议。但如何通过云服务向暴涨的用户同时提供更大规模的算力支持,是摆在每个云大厂面前的核心议题。

▲当前云和数据中心面临平衡性能与能耗的挑战(图源:NVIDIA)

云服务的优势是随用随取、按需分配算力,高性能计算则拥有强大算力。一种“优势互补”的思路开始走向落地:如果将两者的技术路线结合,是不是就能在云上提供媲美超级计算机的性能?乍一想可行,但落到实处,需解决很多的技术挑战。

在传统云原生的算力基础设施中,CPU是事无巨细的芯片“大总管”,既要处理计算任务,又要监管通信和存储,忙着这头,就顾不上那头,中间造成大量的排队等待时间和算力资源浪费。

这就好比餐厅,规模小、顾客少时,一位大厨还能忙得过来。此时这位大厨包揽了后厨的所有工作,除了忙着炒菜外,还操心采买、仓储、切配、端菜等等。然而等顾客越来越多,如果还靠他一手包办,那么炒菜效率就低了,每个顾客的等菜时间都长,体验都不好。

为解决这些痛点而生的云原生超级计算架构,正在云计算数据中心流行开来。

云原生超级计算的核心思路是“分而治之”,相当于给厨师配上帮厨、服务员等专业帮手,这样一来,厨师能够专心把菜炒得又快又好。

如今,越来越多的商业云开始提供高性能计算(HPC)云服务,大型算力中心也产生更多的上云需求。主要承担HPC和大型人工智能AI)训练任务的算力中心,本身算力资源池非常大,存在算力资源闲置问题。而引入云原生超级计算技术,可以将算力资源切分供给多用户多业务,通过编排调度,让每个业务都能享有堪比独占所有资源时的高性能。无论是从提升性能、优化设计,抑或是从节能减排的角度,云原生超级计算对于商业云和大型算力中心的架构优化思路都很有借鉴价值。

02.给高性能业务上云开路!解读云原生超级计算的灵魂

云原生超级计算请的专业帮手,就是DPU。作为替CPU分摊工作的辅助“大脑”,DPU接手了通信、存储、安全等任务,让CPU能专心处理用户业务,这样各种计算和通信任务就可以同步进行,不再像以往那样出现拥堵问题。

▲典型的DPU/DOCA卸载及加速通信流程示意图(图源:NVIDIA)

经过两年发展,这个被AI计算巨头NVIDIA(英伟达)带火的芯片新秀,已经开始广泛落地于云计算和高性能计算的算力基础设施建设大潮中。具体而言,NVIDIA BlueField DPU对数据中心的最大价值,就是实现性能和能效的显著提升。

首先是性能,提升数据中心整体性能的一大关键阻力是网络。原本计算能力有十成,多个任务同时处理后,CPU处理这个计算任务或者管理调配通信、存储等资源时,另一个计算任务就只能浪费时间等待。

此外,如果两个任务在通信过程中狭路相逢,造成网络阻塞,那么就会造成延时。在金融银行等对延时高度敏感的应用场景中,这可能给客户交易造成损失。

而在 NVIDIA BlueField DPU主管网络、存储等基础架构功能后,不仅CPU可以将更多计算资源用在云服务客户的业务上,整体网络阻塞问题得到明显改善,而且BlueField DPU本身携带的计算资源也可以辅助加速计算。

▲典型的DPU/DOCA卸载及加速通信流程示意图(图源:NVIDIA)

再从能效来看,随着数据中心规模越来越大,改善耗电量、降低基础设施采购和降低电力成本,已经是优化现代数据中心和主要目标。引入NVIDIA BlueField DPU,已是较大数据中心提升系统能效的有效途径之一。在运行基础设施任务时,内置专用硬件引擎的NVIDIA BlueField DPU,效率要比CPU高得多。

此外,NVIDIA BlueField DPU上的CPU核心采用Arm架构,天然比多数x86服务器CPU更加节能,并且可以直接访问网络管线。换个角度来看,同样的CPU数量,将计算资源更集中的供给云服务业务后,能够提供更高性能。

反过来,实现相同的性能,其实要比以前消耗更少的CPU,这相当于减少了硬件采购成本,进而有助于大幅降低总体拥有成本(TCO)。根据《NVIDIA BlueField DPU能效白皮书》,通过用NVIDIA BlueField DPU卸载,在3年期间将1万台服务器的每台服务器耗电量降低200W,可在中国地区节省的成本估算值接近400万美元(近2800万人民币)

▲根据2020/2021年电价,在不同国家/地区,通过使用DPU卸载在3年期间将1万台服务器的每台服务器耗电量降低200瓦,可节省的成本估算值(图源:NVIDIA DPU能效白皮书)

如果为拥有1万台服务器的大型数据中心计算,将IPsec加密/解密卸载到NVIDIA DPU,那么大型数据中心的3年TCO有望节省约2630万美元(折合约1.8亿人民币)

▲为拥有1万台服务器的大型数据中心计算将IPSec加密/解密卸载到BlueField DPU的TCO(图源:NVIDIA DPU能效白皮书)

如此显著的成本优化,得益于英伟达极有远见的前瞻性布局:将硬件做到业界性能标杆,用软件培养开发者习惯,从而构建一个普适的高性能生态环境。

03.开业界先例实现公有云上的业务性能隔离

与GPU如出一辙,提及DPU,英伟达绝对是被最先想起的公司,足见英伟达在业界的影响力。而软硬“双剑合璧”,加上在生态合作和口碑方面的优势滚雪球般越滚越大,长期是英伟达能够站在潮头、难以复制的杀手锏。硬件上,NVIDIA BlueField DPU在本地Host Memory和远端Host Memory之间建立了一条直接的通信通道,整个过程不需要CPU分神参与任何通信操作,并通过提供Pre-Active拥塞控制技术实现性能隔离。

▲DPU硬件与DOCA软件协作(图源:NVIDIA)

而硬件性能的充分发挥,离不开大量的软件工作。针对BlueField DPU,英伟达打造了NVIDIA DOCA来提供各种加速库及标准编程接口,为其客户不断降低相应应用的DPU开发门槛。再加上与英伟达其他先进网络技术的协同配合,数据中心的网络顽疾得以有效优化,能够更充分地发挥硬件资源的性能。这些优势的叠加,推动云原生超级计算技术走向落地。最新典例便是在HPC云服务方面一马当先的云巨头微软智能云Azure,在英伟达BlueField DPU相关产品及技术的支持下,它在业界率先实现了公有云上的业务性能隔离。也就是说,让业务在云上拥有像独享资源时一样的高性能水平,已经从设想转变为现实。

▲借助云原生超级计算技术,Azure在业界率先实现公有云上的业务性能隔离(图源:NVIDIA)

NVIDIA网络亚太区高级总监宋庆春告诉芯东西,如果现有公有云想将计算平台升级向云原生超级计算,可以先从英伟达BlueField DPU或标准网卡着手,在体验到相应的技术优势后,在逐步演进至更多网络计算技术的替换,最终改造成基于云原生超级计算的最优计算平台。目前云原生超级计算主要应用于面向高性能业务的上云,包括传统高性能计算业务(如气象预测、石油勘探、生命科学等应用)、大规模AI训练任务、推荐任务等,并通过多项测试,验证了NVIDIA BlueField DPU在提升数据中心性能和能效的真本事。例如,VMware和英伟达在服务器上测试Redis键值存储的测试表明,在25Gb/s网络上运行Redis工作负载的VMware vSphere分布式服务引擎时,将网络功能卸载到NVIDIA BlueField DPU上,可释放12个CPU核心,同时提高Redis的性能。相比不使用DPU,使用NVIDIA BlueField DPU卸载,可为近万台服务器3年节省约5650万美元(近4亿人民币)的总体拥有成本。

▲将VMware ESX网络功能卸载到DPU后的TCO计算结果,其中Redis工作负载最初运行在1万台服务器上,并支持每台服务器每秒处理1400万个Redis事务(图源:NVIDIA DPU能效白皮书)

面向大型科研项目,通过DPU加速通信,分子动力学模型性能可提升20%,数据建模应用实现26%的性能提升,天气预告模型实现约24%的性能提升。即将走向市场的NVIDIA BlueField-3 DPU将支持400G带宽,内存平衡较上一代提升4倍

▲DPU卸载和加速带来的高性能计算性能优势(图源:NVIDIA)

内置NVIDIA BlueField DPU的NVIDIA Quantum InfiniBand网络平台,也已经在超级计算领域功勋赫赫,并在全球超算榜单中展现出越来越高的存在感。以最新全球IO500高性能存储网络方案榜单为例,10节点测试中,前4名系统均采用NVIDIA Quantum InfiniBand网络。

▲2022年11月全球IO500高性能存储网络方案榜单(图源:NVIDIA)

04.结语:释放云的力量奔赴新型数据中心未来

2020年秋季,当“芯片圈知名带货王”NVIDIA首席执行官黄仁勋在GTC大会上亮出DPU时,DPU对于不少云计算及超级计算从业者来说还是一个新鲜但不确定有多大价值的新概念。今天,再谈起DPU,你也许会想起AWS Nitro,也许会想起阿里云CIPU,会想起英特尔IPU,抑或是这两年突然涌起的DPU创业与投资热潮。而引爆DPU概念的NVIDIA,已经低调地将重心转向部署,让“第三颗主力芯片”真枪实弹地进入一线数据中心客户的真实业务战场,作为云原生超级计算的灵魂,为数据中心展现新的架构可能。

如今,DPU正呈“神仙打架”之势,通过推动网络和计算架构的创新,它将帮助大型数据中心的建设者们穿越周期,奔赴一个高计算密度、智能集约、绿色低碳、安全可靠的数据中心未来。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
AT90CAN128-16AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 64TQFP

ECAD模型

下载ECAD模型
$20.4 查看
STM32F205RCT6 1 STMicroelectronics High-performance Arm Cortex-M3 MCU with 256 Kbytes of Flash memory, 120 MHz CPU, ART Accelerator

ECAD模型

下载ECAD模型
$27.28 查看
STM32H743XIH6 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下载ECAD模型
$31.15 查看

相关推荐

电子产业图谱