英特尔收购Omnitek背后的逻辑

四月中旬，英特尔宣布收购一家名为 Omnitek 的英国公司，旨在“增强 FPGA 在视频（video）和视觉（vision）领域的产品组合”。对于很多人来说，Omnitek 并不是一个非常熟悉的名字。那么，究竟它为何受到了英特尔的青睐，以及这次收购背后的深层技术逻辑为何，就让老石在本文为大家深入分析。

（Omnitek CEO 与创始人，图片来自 Omnitek）

Omnitek 是何方神圣

Omnitek 并不是一个传统意义上的初创公司，它成立于 1998 年，总部位于英格兰南部的贝辛斯托克（Basingstoke），见下图。

贝辛斯托克这个小城是英国比较有名的经济和科技中心之一，巴宝莉（Burberry）就起源与此。这里集中了不少世界知名的大公司的总部或欧洲总部，其中包括很多半导体和科技公司，比如索尼、摩托罗拉、意法 - 爱立信等，华为的欧洲总部也曾经设在这个小城。

虽然 Omnitek 已经成立了超过 20 年，但员工总数只有四十人左右，也没有公开的融资记录。从这些方面来看，Omnitek 只能算是一个中型、甚至小型的公司。

然而，在这 20 年中，Omnitek 开发和积累了超过 220 个 FPGA 硬件 IP、对应的软件系统、以及开发平台，见下图。

（图片来自 Omnitek）

这些 FPGA IP 主要集中在视频和图像处理领域，包括使用 FPGA 进行超高清视频图像的旋转、形变、3D 映射、编解码等等各类处理，见下图。

（图片来自 Omnitek）

这些应用一直是 FPGA 的传统应用领域，特别是在诸如视频会议、投影、显示屏等场合。因此，就像在公布收购后的官方新闻稿中所说，这次收购将会极大的补强英特尔 FPGA 在视频和图像处理领域的 IP 资源。

然而，老石注意到，Omnitek 在 2018 年底发布了一款自研的深度学习处理器（DPU）。与市面上任何基于 FPGA 的同类产品相比，Omnitek 宣称这款 DPU 的性能有着 50%的优势。同时，与 GPU 相比，这款 DPU 在给定的功耗或成本限制下也有着更加优异的性能。

在当前各类人工智能处理器 xPU 层出不穷的时候，Omnitek 这个官宣大胆而自信。老石认为，这也是英特尔收购 Omnitek 背后的主要逻辑。

（获取 Omnitek 深度学习处理器技术白皮书，及相关幻灯片及视频资料，请在“老石谈芯”后台回复“DPU”）

“地表最强”FPGA 深度学习处理器

老石在之前的文章《FPGA 在人工智能时代的独特优势》一文中讲过，使用 FPGA 对人工智能应用进行硬件加速主要有以下几个优点：

FPGA 片上有着大量 DSP 硬核资源、分布式片上内存，以及海量可编程逻辑资源，非常有利于神经网络的硬件实现。

FPGA 有着很强的灵活性，可以根据不同的需求和应用进行编程，并调整相应的硬件结构。

FPGA 可以处理任意精度的算术运算。

高端 FPGA 通常基于最新的半导体工艺节点制造，同时有着不同产品系列和大小，在提供高性能的同时，兼顾了低功耗和成本。

除 AI 相关的 IP 之外，FPGA 还有海量成熟的 IP 资源，因此可以与人工智能 IP 快速整合，针对特定的应用场景构建完整的系统方案。

基于这些优点，Omnitek 选择使用 FPGA 作为其深度学习处理器的主要实现平台，这与目前业界包括微软在内的很多公司不约而同，见下图。

（图片来自微软）

事实上，与微软在“脑波项目”中使用的 DPU 相比，Omnitek 的 DPU 在使用模型上也有着很多相似之处。这类 DPU，也称为 Soft DPU，最主要的特点就是提供一个基础的硬件架构，用来进行深度神经网络的计算加速；同时提供完整的软件编程接口和编译器，使得上层用户使用高层语言对神经网络进行配置。

这种架构的最主要优点，就是实现了软硬件的完全解耦，这也让使用者无需掌握任何硬件相关的专业知识，从而只需要专注于算法和模型本身的设计，并可以通过诸如 Python、C/C++等高层语言对模型进行调整和配置。

与高层次综合（HLS）相比，这种基于 FPGA 的 DPU 设计方法无论在性能、开发敏捷性、编译时间等各个领域都有着明显优势。

Omnitek DPU 的主要特点

与微软 DPU 相比，Omnitek 的 DPU 又有着自己独有的特点。它的系统架构图如下所示。

（图片来自 Omnitek）

可以看到，用户可以使用 TensorFlow、Caffe 或者 OpenVINO 等主流机器学习框架构建的模型，或者是自己用高层语言编写的模型，通过 DPU 编译器生成特定的微代码（Microcode），这与微软 DPU 采用数据流图的方式不同。这些微代码将被用来配置 FPGA 上的 DPU 数据处理流水线，如下图所示。

（图片来自 Omnitek）

Omnitek DPU 的另一个主要特点是可以通过编程，调整对不同 DNN 拓扑的支持效率。通常来讲，某种 DNN 硬件加速器往往是针对某种特定的 DNN 拓扑设计的。以谷歌的 TPU 为例，它对于阿尔法狗所使用的 CNN 模型（CNN0）有着很高的运行效率，高达 78.2%，平均性能也可以达到 86TOPS，见下图。然而对于另外的 CNN 模型，如 GoogleNet（CNN1），谷歌 TPU 只能达到 46.2%的运行效率，性能也骤降至 14.1TOPS。

由此可见，不同 CNN 模型对于单一硬件架构的实际性能有着很大影响。除 CNN 之外，诸如 RNN 和 MLP 等其他 DNN 拓扑有着和 CNN 明显不同的特点。除此之外，随着人工智能理论研究的不断推进，想必会不断涌现出其他更加新颖的网络拓扑结构。因此，如果使用相同的硬件架构对这些 DNN 拓扑“一视同仁”，则必然不会得到满意的性能。

（图片来自 Omnitek）

对于这种情况，也只有 FPGA 能够快速调整硬件结构，以适应不同的网络拓扑结构，这是 ASIC 或 GPU 都无法实现的。而这也是 Omnitek DPU 的另一个主要特点。

此外，Omnitek DPU 还使用了“片上网络（NoC）”技术，将多个 DPU 进行互联和数据共享，如下图所示。NoC 是目前在大型芯片上进行数据共享和高速传输的新型技术，在赛灵思最新的 ACAP 架构上，也使用了 NoC 技术，这在之前的文章《赛灵思下一代计算平台 ACAP 技术细节全揭秘》中有过深入解读，有兴趣的读者可以看看，在本文中就不再赘述。

（图片来自 Omnitek）

性能方面，Omnitek 公布了在英特尔 Arria10 GX1150 FPGA 上实现的 DPU 性能数据，如下所示。

单就上面的数字来看，特别是 TOPS 一栏，只能说差强人意。不过性能功耗比（GOPS/W）比较高，能够体现 FPGA 的低功耗优势。同时考虑到 Arria10 是一款基于 20nm 工艺的 FPGA，因此可以预期当使用更先进的 FPGA，如 Stratix 10（14 纳米）或 Agelix（10 纳米）时，上面的数字将无疑会有大幅提升。

事实上，Omnitek 也有使用赛灵思 16 纳米 UltraScale+ FPGA 所取得的性能结果，比上面的数据有着明显提升，本文不再给出，有兴趣的读者欢迎在老石谈芯后台回复“DPU”查看。

结语

Omnitek 作为一家做了 20 年的视频图像 FPGA IP 提供商，刚刚切入人工智能芯片领域，就依托技术积累开发出了地表最强的深度学习处理器，并随后被英特尔收购，这一系列操作实在让人眼花缭乱。

这次收购对于英特尔而言，不仅补强了其在视频和图像处理领域的 FPGA IP 组合，更是直接得到了 Omnitek 已经比较成熟的 DPU 软硬件方案。这无疑进一步扩展了英特尔在人工智能领域的产品布局和多样性。

Omnitek 的官网上列出了很多公司的核心价值观，其中很有趣的一点，就是它允许员工有着灵活的工作时间，因为公司“理解对于所有员工来说，保持‘朝九晚五’的工作时间是很困难的”。这在 996 盛行的今天，无疑更加值得我们思考，工作和生活，哪个才是我们应该追求的福报。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
5M80ZT100I5N	1	Altera Corporation	Flash PLD, 14ns, 64-Cell, CMOS, PQFP100, 16 X 16 MM, 0.50 MM PITCH, LEAD FREE, TQFP-100	ECAD模型下载ECAD模型	$2.3	查看
EPM1270T144A5N	1	Altera Corporation	Flash PLD, 10ns, 980-Cell, CMOS, PQFP144, 22 X 22 MM, 0.50 MM PITCH, LEAD FREE, TQFP-144		$461.92	查看
A3P250-VQG100	1	Microchip Technology Inc	Field Programmable Gate Array, 6144 CLBs, 250000 Gates, 350MHz, CMOS, PQFP100		$17.53	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

5M80ZT100I5N

Altera Corporation

Flash PLD, 14ns, 64-Cell, CMOS, PQFP100, 16 X 16 MM, 0.50 MM PITCH, LEAD FREE, TQFP-100