去年秋天,英伟达宣布推出一款新型处理器DPU,黄仁勋的带货原话是:“数据中心已成为新型计算单元。在现代化、安全的加速数据中心中,DPU 已成为其重要的组成部分。CPU、GPU 和 DPU 的结合,可构成完全可编程的单一AI计算单元,提供前所未有的安全性和算力。”

 

DPU作为面向数据中心的专用处理器,是否真的有望成为继CPU和GPU之后的第三颗算力芯片?

 

为什么需要DPU?

 

CPU负责通用计算、GPU负责加速计算已经成为绝大部分数据中心的常态。用于加速计算的GPU,将计算密集型任务从CPU中分离出来,CPU继续发挥通用计算和逻辑运算的能力,将并行计算、机器学习和AI计算等任务交给GPU处理。

 

随着数据中心向软件定义的趋势发展,它在变得更加灵活的同时也将承受更大的负担,基础架构的运行将消耗20%-30%的CPU核心。这也意味着,新的分工体系需要更加细分的“工种”,为CPU“减负”。

 

正如GPU受图形图像需求的驱动发展,DPU(Data Processing Unit,数据处理器)的产生背景是端边云一体化趋势下,对计算延迟、数据安全、资源虚拟化的需求,而这些功能对于实现对于下一代云上大规模计算至关重要。

 

国内外玩家都有谁?

 

事实上,想在基础网络架构变革中分一杯羹的不止DPU,还有智能网卡(SmartNIC)。我们都知道数据中心服务器之间的网络互联有一套底层软件系统,这套软件需要能完成网络互联协议,除此之外,还需要能跑一套数据中心必备的网络安全系统。传统上,这些处理也跑在CPU上,而随着SmartNIC的逐渐普及,它正在网络安全和网络协议处理方面缓慢地取代CPU。

 

Xilinx去年推出的Alveo U25 就是一款一体化内置可编程FPGA的 SmartNIC ,在单颗器件上实现了网络、存储和计算加速功能的融合。

 

DPU可以看做是SmartNIC的增强版本,一方面加强了SmartNIC对于网络协议和网络安全的处理能力,另一方面整合并加强了分布式存储的处理能力,从而让DPU能在这两个领域更多地替代CPU。

 

这将是一个即将掀起大风浪的领域,挤满了摩拳擦掌的选手们。据不完全统计,国内外布局这一市场的玩家,既有Intel、英伟达、Broadcom、Marvell这样的大厂,也包括Fungible、Pensando等初创企业,其中几家大厂近些年的几宗收购,也在围绕这一领域展开。

 

从技术路线来看,各家方案有所不同。Intel、Broadcom都是面向交换机、路由器芯片,Intel基于FPGA,Broadcom基于Arm架构;英伟达侧重于数据安全、网络、存储卸载,主要基于所收购的Mellanox网络方案及Arm架构实现;Marvell主要面向5G带宽,通过收购Cavium获得的可编程芯片技术和Arm架构形成方案;Pensando和Fungible两家创企,前者面向支持P4的SDN,方案主要通过软件定义网络处理器实现,后者面向网络、存储、虚拟化,方案基于MIPS架构。

 

国内厂商在这一领域目前有披露的并不多,华为的智能网卡属于DPU的细分,不过智能网卡芯片还未正式宣布;阿里方面,据了解有DPU较为原始形态的产品;还有中科驭数,最近刚刚宣布了下一代DPU芯片计划。

 

冲击千亿量级DPU市场,国产芯片加速成长

 

根据Fungible和Nvidia的预测,用于数据中心的DPU量级将达到和数据中心服务器等量的级别。服务器每年新增大约千万量级,一台服务器可能没有GPU,但一定会有一颗或者多颗DPU,好比每台服务器都必须配网卡一样。服务器每年新增大约1500万台,每颗DPU如果以1万元计算,将是千亿量级的市场规模。

 

追溯起来的话,中科驭数的创始团队算是在国内较早进行DPU芯片研发的。该公司创始人兼CEO鄢贵海博士、联合创始人兼CTO卢文岩博士、首席科学家李晓维博士,均来自中科院计算所计算机体系结构国家重点实验室。他们提出了软件定义加速器技术(Software Defined Accelerator),自主研发了KPU(Kernel Processing Unit)芯片架构,并于2019年设计出业界首颗数据库与时序数据处理融合加速芯片,已经成功流片。中科驭数的DPU芯片,正是基于自研的KPU芯片架构,具有网络协议处理、数据库和大数据处理加速、存储运算、安全加密运算等核心功能。

 

从KPU架构到DPU芯片,中科驭数的关键优势是什么?

 

鄢贵海博士介绍,相较于传统的ASIC或SoC DPU芯片架构,KPU有较高的灵活性,可以通过即时的软件配置来定义芯片内部数据运算逻辑,在保障充沛算力的同时,以最低功耗支撑更多运算负载类型。其KPU定位为“敏捷异构”的专用计算架构,与CPU、GPU、FPGA、ASIC相比,KPU-Drive方案在算力、能效比(TCO)、算法灵活性、边际成本、开发周期等方面优势明显。

 

目前,中科驭数已经积累了8个大类的KPU内核资源, 涵盖了时间序列分析、数据查询、加密解密、数据压缩、协议解析等,并在过去两年完成了两代KPU的迭代。KPU也从最初的单个应用算法加速,进化到了集网络、数据库与应用算法的全方位立体化加速体系。

 

再与同类方案做横向对比,中科驭数是否有独特优势?

 

据了解,同类DPU方案类型大致可以概括为三种:一是以通用众核为基础的同构众核DPU,例如Broadcom的Stingray架构,以多核Arm为核心,以众取胜,可编程灵活性较好,但是应用针对性不够,对于特殊算法和应用的支持,与通用CPU相比并无太显著优势;二是以专用核为基础的异构核阵列,这种架构的特点是针对性较强、性能较好,但是牺牲了部分灵活性;第三种路线是以上二者的折中,且专用核的比重越来越大,正在成为最新的产品趋势,以英伟达的BlueField2系列DPU来看,就包括4个Arm核及多个专用加速核区域,Fungible的DPU则包含6大类的专用核,和52个MIPS小型通用核。

 

“不同于Broadcom、Fungible等国外芯片厂商,中科驭数的DPU没有采用原来众核为主的架构,而是将重点放在异构核上,以针对性算法加速为核心,通过KPU架构来组织异构核。在KPU架构下,中科驭数研发了芯片级完善的L2/L3/L4层全网络协议处理核,推出了直接面向OLAP、OLTP及类SQL处理的数据查询处理核”,鄢贵海介绍。

 

这样带来的好处是,更高效的数据处理效率、获得更直接的使用接口,以及更佳的虚拟化支持,这些特性对于金融科技、数据中心、混合云及边缘计算等高带宽、低延迟、数据密集型的计算场景都尤为重要。

 

以KPU架构为核心,在2019年流片第一颗芯片K1的基础上,中科驭数下一颗芯片K2预计今年年底流片。从目前曝光的芯片架构来看,功能层面包括L2/L3/L4层的网络协议处理,可处理200G网络带宽数据;融合了数据库、大数据处理能力,直接面向OLAP、OLTP及大数据处理平台,如Spark等;此外,还囊括机器学习计算核以及安全加密运算核。

 


 
中科驭数K2芯片架构

 

落地!落地!

 

目前,数据中心核心算力芯片仍以CPU、GPU、FPGA和少量ASIC为主,并且通用CPU还是占据绝对统治地位。和CPU、GPU一样,DPU作为基础层的应用支撑,发展的关键是必须重视生态建设和应用支撑,落地才是下一步最主要的问题。

 

鄢贵海分析,从国内需求侧来看,中国拥有世界最强的互联网产业、规模最大的网民和线上生态,正是因为数据的大爆发,推动了对算力的需求,这是DPU发展的前提。DPU将致力于解决“网络协议处理、数据安全、算法加速”等CPU做不好,GPU做不了的计算负载。

 

至于国产芯片如何寻求应用突破?鄢贵海表示,首先还是要重视设计和研发,高端算力芯片有巨大技术壁垒,虽然挑战很大,但不代表没有机会。

 

对于初创企业来说,不能用“棍扫一大片”的打法,而是要“枪挑一条线”,将有限的资源切入到最为垂直的细分应用中。中科驭数目前已经找到了这个场景,就是金融IT,相关产品和解决方案已经在金融极速交易、金融风控、极低时延数据库异构加速等场景落地。

 

据介绍,除了深耕金融领域,2021年中科驭数产品的商业应用还将逐步拓展到混合云、数据中心、电信通信等领域。鄢贵海表示,一方面,会在细分场景中将市场充分做透,形成有效商业闭环;另一方面,将继续在设计和研发领域寻求突破点,以设计作为牵引,以点带面,寻求进一步发展。