DeepX的AI加速器能够脱颖而出吗？

在评估AI 硬件时，规格竞赛（能效、性能和对各种算法的支持）绝对是重要的。但是，当系统公司把在GPU上开发的AI模型移植到其他类型的硬件时发生的精度损失怎么处理呢？这就是DeepX的特色。

上周，AI芯片初创公司DeepX的创始人Lokwon Kim，在加州Santa Clara的展会上推出了一系列AI加速器。Kim声称，这些芯片将实现“无处不在的AI，人人可用的AI。”

Kim选择了嵌入式视觉峰会作为他的首次公开亮相。需明确的是，DeepX是一个刚加入这个拥挤赛道的初创公司。然而，DeepX在韩国却有着深厚的根基。通过向韩国政府积极地营销，Kim已经把DeepX在AI领域的研发变成了一个国家项目。

DeepX从政府那里筹集了4000万美元，还在韩国的风投圈中筹集了2000万美元。根据Kim的说法，今年晚些时候将计划进行B轮融资。

DeepX正在推出一系列用于边缘设备嵌入式视觉产品的AI加速器。它还开发了包括编译器和运行时在内的软件开发套件DXNN。DeepX认为DXNN是其皇冠上的明珠。

据报道，DXNN可以简化深度学习模型部署到DeepX的AI SoC的过程。其编译器提供了高性能量化、模型优化和NPU推理编译的工具。其运行时包括NPU设备驱动程序、带有API的运行时和NPU固件。

最重要的是，该公司声称，DXNN支持“以浮点格式训练的DNN模型的自动量化”。

DeepX并没有凭空创造出其AI硬件架构。Kim说，自2016年创立公司以来，“我们实际上已经与数百家全球公司坐下来进行了面谈。”

Kim观察到，“可扩展性、AI精度以及功率/性能效率”是边缘AI系统开发者一直在苦苦挣扎的三个领域。DeepX的目标是在其AI加速器上实现GPU级的AI精度，同时提供高吞吐量和低功耗。

DeepX的源起

在DeepX之前，Kim是Apple的AP的首席设计师，参与开发了A10、A11 Bionic和A12 Bionic。

Kim创办DeepX的灵感来源于他2010年在IBM的T.J. Watson研究中心做访问学者的经历。他当时的工作是开发深度学习MPU，这是DARPA指派给IBM的一个项目。

当时Kim是UCLA的博士生，自那以后，他一直沉迷于在MPU上运行DNN的想法。

即使在加入Apple后，Kim也一直坚持着自己的AI创业梦想。“我实际上已经把我的想法带给了Apple的高层管理人员。”他们拒绝了，于是Kim结束了在Apple的工作，并返回韩国。

Kim表示，他非常敬仰张忠谋。半导体行业对张忠谋的贡献有很大的感激之情。张忠谋离开美国，在中国台湾创办了TSMC。这个起初并不被看好的企业最终成为了全球最大的代工巨头。

Kim说，TSMC对中国台湾的重要性（无论是经济上还是政治上）已不言而喻。通过利用AI的力量，Kim希望在他的祖国取得类似的重要地位。

这是一个大胆的说法。但是Kim的想法反映了这个时代。无论是好是坏，地缘政治已经成为先进半导体发展的内在因素。

战略

DeepX设计了同属一系列的四款AI加速器，所有的焦点都集中在视觉应用上。其策略是为多个边缘视觉AI领域提供可扩展的解决方案。

DX-L1，适用于IP摄像头、车内监控、机器人摄像头和无人机等摄像头应用。

DX-L1包含四核RISC-V、ISP、MIPI和视频编码器，提供12 eTOPS的AI性能。Kim指的eTOPS是“相当于GPU的TOPS的性能度量标准”。

DX-L2支持3-4个摄像头的边缘AI视觉系统，提供38 eTOPS。

DX-M1，配备了双核ARM核和ISP，支持10个摄像头，提供200 eTOPS。

DX-H1，提供1600 eTOPS，将以PCIe卡的形式生产，可以部署在能够执行大规模AI操作的边缘服务器中。通过支持10,000个摄像头，DX-H1可以服务于安装了大量监控摄像头的工厂。

H1具有与M1类似的双核ARM核和ISP模块。

所有四种芯片都由三星代工，其中L1和L2采用28nm制程。M1是14nm，H1则使用5nm工艺。价格范围从10美元（L1）、20美元（L2）到50美元（M1）和1500美元（H1）不等。

准确性

除了提供低功耗和性能效率外，DeepX还将资源集中在量化工作上，以保证GPU级的准确性。

基于自身经验，DeepX专注于解决准确性降低的问题上。Kim指出，将原本在浮点格式GPU上训练的AI模型移植到其它硬件上，都会导致准确性降低。

因此，DeepX的团队寻找了每个数据路径中准确性降低的点。结果就是DeepX在其SDK，即DXNN中称之为“世界顶级的量化器”。

市场细分

过去几年中，许多AI硬件创业公司被汽车行业所诱惑，梦想着他们的AI芯片将成为下一代车辆平台的计算机大脑。

相反，Kim得出的结论是，对于一家初创公司来说，向车厂销售AI芯片是一个糟糕的选择。因为汽车芯片需要经过漫长的验证时间，ASIL B和C等认证作业增加了很多困难。即使解决了这些障碍，芯片销量也微乎其微。

相反，Kim的策略是与车厂合作，为DeepX MPU授权IP，包括软件。Kim解释说，DeepX一直被OEM忽视，现在却开始收到OEM要求评估DeepX芯片的请求。

这可能意味着两件事。

首先，许多欧洲车厂向Kim暗示，他们对下一代车辆平台仍未做出决定。

其次，一些领先的车厂已经投入资源使用Nvidia的GPU开发自己的AI模型。但现在，当他们将模型移植到其他硬件上时，准确性降低问题正在出现。这迫使他们重新寻找另一种AI硬件解决方案。

Kim表示，DeepX只会为车厂提供IP授权。对于其他应用领域，其业务模式则是直接销售芯片。

Kim表示，DeepX的AI芯片的最佳应用场景是机器人，无论是配送机器人还是在工厂内作业的机器人。

Nvidia显然已经通过GPU赢得了AI市场。然而，AI竞赛的下一章或许在于如何将在GPU上训练的AI模型有效地移植到非GPU硬件上。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
ATXMEGA128A1U-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 100TQFP	ECAD模型下载ECAD模型	$7	查看
ATXMEGA128A3U-MH	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 9 X 9 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, MO-220VMMD, MLF-64		$6.98	查看
MK70FN1M0VMJ15	1	Freescale Semiconductor	Kinetis K 32-bit MCU, ARM Cortex-M4 core, 1MB Flash, 150MHz, Graphics LCD, MAPBGA 256	ECAD模型下载ECAD模型	$18.16	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

ATXMEGA128A1U-AU

Microchip Technology Inc

IC MCU 8BIT 128KB FLASH 100TQFP