探讨一下英伟达的DPU(Data Processing Unit,数据处理器)很有必要,可以说,它代表着数据中心一个新方向。这个赛道也吸引了一些初创企业,他们只要解决了数据中心基础设施的系统性能、吞吐量、效率、总拥有成本等各种问题,也有望在细分应用领域和巨头掰一掰手腕。

 

英伟达推出DPU的背后:深掘数据中心第二波机遇

 

在第一波云端算力暴涨的发展中,GPU是当仁不让的王者,各种针对深度学习等工作负载打造的专用AI芯片也迎来大发展。我们以为英伟达在数据中心到达顶峰的时候,他正在寻求第二引擎,以此迎来第二波的高成长。

 

这背后的逻辑是,通信和计算就好比数据中心基础设施的硬币两面,如果一直提升算力,但是通信基础设施跟不上,整体系统性能还是受限,永远无法发挥出真正的潜能。从数据中心长期的迭代方向来看,光网络的铺设、通信的密度、底层算力的生态设施建设等,都在逐渐升级的过程中。带宽不断提升,将有更大的数据量涌入,数据的处理将会越来越复杂,包括网络协议处理、存储压缩、数据加密等,这些本不是CPU和GPU擅长的领域,该由谁来处理?

 

DPU的提出背景就是应对这些数据量和复杂性的指数级增长,未来,需要将计算移动到接近数据的位置,这是业界所公认的以数据为中心的体系结构下的创新,而非传统的将数据移动到计算所在位置再做处理的方式。

 

这种产品思路在国内外云服务厂商的路线中已见端倪。AWS将“还未运行业务程序,先接入网络数据就要占去的计算资源”称作“Datacenter Tax”。仅以10G网络的数据包处理一项工作来看,它大约要占一个8核高端CPU的一半算力,如果是升级到40G、100G的高速网络,这方面的开销将会更大。因此,AWS 的Nitro产品大胆地将原本在通用CPU上运行的虚拟化管理程序,运行在专有硬件上。同样思路的还有阿里云的神龙架构,官方说明中提到“通过I/O offload芯片加速,高效调度和自动化弹性伸缩的容器化产品,可帮助用户降低50%的计算成本”。沿着这一思路,让专有硬件来做offload,把许多原本需要系统调用、内核操作的工作绕开CPU,通过专有硬件实现。这样一来,用户所购买的计算资源(CPU和内存等)就变得更足量,性价比也得到大幅提升。

 

从业界当前发展DPU的思路来看,它作为一个可编程处理器,运行的都是非应用型负载,从而可以让服务器CPU资源更好地服务应用负载。一言以蔽之,DPU对数据中心来说,是通过更明细的分工,实现效率的提升,实现总体系统的Cost-down。一个能够Cost-Down的产品,会有什么理由没有市场呢?

 

英伟达也正是看中了这一点。GPU算力增加再凶猛,但是以现有x86体系中的CPU内存和PCIe带宽来看,整体系统性能还是难以起飞。为此,英伟达推出了首款专为TB级加速计算而设计的CPU Grace,以及专为现代超大规模云技术基础架构而生的DPU BlueField-3。至此,英伟达的数据中心路线图焕然新生,CPU、GPU、DPU形成三大算力支柱。由此也可以看出英伟达在数据中心的总体策略:并非只强调云端的高端算力,还在向数据中心通信传输和处理领域加速渗透,形成“计算+传输”双管齐下的业务闭环,将数据中心整体作为一个系统来打造,实现计算分布的可能性。

 

最新发布的新一代BlueField-3 DPU,官方介绍称:一颗可抵300个CPU核才能实现的服务,这是继去年发布BlueField-2和 BlueField-2X两款DPU后的又一次升级。

 

BlueField-2刚刚开始使用,BlueField-3的发布节奏属实够快。对此,黄仁勋凡尔赛了一把:“BlueField的投资回报率非常好,借助BlueField,我们可以同时改进服务质量,增加并发用户数量。”言即透露,不是我想快,是市场催着我快。


DPU的雏形是IPU?

 

英伟达的DPU产品可以追溯到Mellanox公司,正是对于这家公司的收购,使英伟达在提高服务器间连接的协同速度方面迅速补足短板。

 

值得一提的是,在被英伟达冠上“DPU”这个名字之前,Mellanox的BlueField产品最初其实命名为IPU(I/O处理单元),主要处理在 I/O 路径硬件中的数据,通过更多的硬件安全功能,包括无代理微分段、高级恶意软件检测、深度包检测和应用程序识别等,实现了兼顾了软件定义解决方案的速度和灵活性,并且提高了安全性、加速了性能并改善了效率。

 

推测黄仁勋更名为DPU,应该是既传承这一硬件方案的优势,也体现了未来以数据为中心的变革趋势。从目前的几代产品发布来看,DPU已经加入了明显的英伟达基因,例如BlueField-2X就在板卡上给DPU加上了Ampere架构的GPU,这被英伟达称作是AI-powered DPU。而BlueField-3作为业内首款400G以太网和NDR InfiniBand DPU,具有更好的网络性能。相比上一代产品,实现了10倍加速计算能力、16个Arm A78 CPU核,和4倍的加密速度。
 

 

除了计算、存储、网络传输功能,DPU还肩负着一个对数据业务至关重要的职责:安全。当我们把所有的设备、软件和环境都放到云端的时候,首要面临的就是安全问题,预防安全攻击正成为一个新的课题。以往数据吞吐量并不大的时候,可以通过路由器、网卡、交换机等进行流量过滤或加密。但是,5G和物联网的普及,传统的应对方式不再适用。通过DPU可以在线应对数据安全问题或对抗DDoS攻击。并且,通过加入AI训练,甚至能够在无人干预、值守的情况下,识别异常流量、并在短时间内对服务器进行保护。这也应该是英伟达下一步对基于AI的DPU的一种应用场景。 


DPU受到创企和资本青睐

 

DPU这个大蛋糕,也吸引了国内外的初创企业。

 

由思科前高管创办的Pensando,方案主要通过软件定义网络处理器实现,已经获得了HPE、Oracle和Lightspeed Venture Partners等知名公司的投资;Fungible的方案主要基于MIPS架构,面向网络、存储、虚拟化,2019年该公司获得由软银愿景基金领投的2亿美元C轮融资。

 

国内市场这个赛道也正变得热闹异常。

 

脱胎于中科院计算所计算机体系结构国家重点实验室的中科驭数,算是在国内较早进行DPU芯片研发的,以其KPU专用处理器架构为基本组件来打造DPU芯片,在过去两年完成了两代KPU的迭代,并于2019年推出了数据库与时序数据处理融合的加速芯片,已经成功流片。其DPU芯片具有网络协议处理、数据库和大数据处理加速、存储运算、安全加密运算等核心功能。

 

近期还有两家企业传来融资消息。

 

成立于2015年的芯启源,针对超大规模电信和企业级智能网络, 提供基于DPU芯片的智能网卡。该公司于2月宣布完成数亿元Pre-A2轮融资,由和利资本与软银中国共同领投。

 

还有成立于今年3月的珠海星云智联,日前宣布完成数亿元天使轮融资,由高瓴创投领投,鼎晖VGC(鼎晖创新与成长基金)、华登国际中国基金参与跟投。官方资料显示,该公司专注于数据中心基础互联通信架构和DPU芯片研发,团队成员有来自硅谷、以色列、加拿大等地ICT领域的专家。

 


写在最后

 

根据英伟达方面的预测,市场上每年交付的大约3000万台数据中心服务器中,有1/3用于运行软件定义的数据中心堆栈,而这种工作负载的增长速度远快于摩尔定律,除非卸载并加速这类工作负载,否则数据中心用来运行应用程序的CPU算力会越来越少。

 

在这样的背景下,构建以数据为中心的系统已经是大势所趋。DPU作为最新发展起来的专用处理器的一个大类,专门来应对端边云一体化趋势下对计算延迟、数据安全、资源虚拟化的需求。

 

多家DPU企业都在憧憬“它将成为未来计算的三大支柱之一”。这一天究竟何时到来?是否能如愿实现?

 

不管怎样,一个新的时代已经到来。

 

贴一张英伟达DPU芯片的路线图,到BlueField-4的时候,网络速率将暴增到800Gb/s,计算能力将再次提升10倍,具备云原生、解耦能力、微服务、AI、Zero-Trust安全等特性,契合未来数据中心基础设施的核心需求,DPU的发展潜力可见一斑。