AI发展进入深水区，英特尔多维并举推动AI规模落地

上周在世界人工智能大会（WAIC）上饱览了各显神通的AI创新力量，感慨于这个产业的火热之余，仍然在叩问一个问题：AI究竟如何落地？这一次，我把视角汇聚在老牌半导体厂商——英特尔身上，期待找到一些不一样的答案。

这是英特尔第四次参加WAIC，从多元算力、数据平台到垂直应用的布局，可以说这家大厂有了更为全面、清晰的发展思路。总体来说，集结多元算力、集设计制造于一身的综合优势，再加上开源数据平台、软件工具优势，以及在看得准的垂直领域形成全方位的生态布局——“全栈”这个词虽然显得有点老套，但是如果非要用一个词来概括，个人认为这仍然是最鲜明的一个标签。

以下是笔者观展以及与英特尔内部专业人士交流所得，来剖析一下大厂推动AI落地的独到优势。

超异构集成，融合算力和软件力量释放AI潜能

“异构集成”是业界关注度颇高的一个方向，你可以理解它是摩尔定律失速下的一个解决之道，也可以理解为应对多元数据处理需求之下的计算架构方向。

在这次大会上，英特尔研究院副总裁、英特尔中国研究院院长宋继强提到，融合CPU、GPU、AI算力、FPGA等在内的超异构计算架构，已经成为未来计算创新的关键驱动力。这其实也是英特尔近年来倡导的xPU战略，用不同的架构去处理不同类型的数据，根据处理速度的要求、带宽的要求进行优化。

xPU本质是一种“让专业的人去做专业的事”的思路:CPU适宜处理标量架构，例如控制流；GPU适宜处理矢量运算，进行多路数据并行运算；AI更多的则是块状运算，需要专门做矩阵加速，数据的存取也需要优化；FPGA特别适合做稀疏运算，大幅降低I/O以及计算的消耗。通过不同计算架构的组合，来发挥各类处理器的优势。

当然，对于英特尔来说，CPU一直是看家本领，这种异构的思路也贯穿在其最新的CPU中。从英特尔今年推出的至强可扩展处理器来看，其内部就引入了专门的深度学习加速器，同时还有专门针对矢量运算进行加速的AVX-512指令集。通过整个架构的改进，第三代至强的性能比前一代有74%的性能提升，在多种AI负载上都有更好的性能表现。

而除了CPU、GPU这类通用处理器，还需要FPGA以及面向各类边缘计算的ASIC芯片，比如英特尔收购的Habana、Movidius等，都在推动这方面的算力创新。

硬件层面还有一个必不可少的因素是I/O互连，当计算能力提升之后，会有更多的数据跨处理器平台、甚至是跨服务器进行交互，当数据交互继续增加时，I/O逐渐会成为一个瓶颈，这将体现在尺寸、功耗等诸多方面。英特尔针对这个问题推出集成光电解决方案，首先是把光器件和电器件紧密地封装在一起，让它们靠近，尽量减少两端转换的损耗；其次是将硅光收发器，以更小的模式放到服务器中。集成光电可以大幅缩小整个系统的尺寸和功耗，可以封装进服务器中，这是未来一个值得关注的变革方向。

值得注意的是，宋继强此次提出了“超异构计算”的概念。比起“异构计算”，这个“超”字，超在哪里？

对此，宋继强表示，这是面向未来的、下一个等级的发展方向。异构计算的形态通常是在一个芯片封装中整合了多个不同的die，强调了对不同计算能力的融合，也就是封装能力。但是，他强调，在不同的计算能力之上还要构建软件能力，软件层是不容忽视的，如果软件没有优化好，底层的硬件就算堆太多资源也没有显著意义。计算架构/计算能力有没有被用好，这是第一步，特别是在跨不同处理单元之间的同步问题时，优化好了才能大幅提升性能。“所以第一要考虑封装能力，第二是要考虑软件，‘超’就超在这里”，宋继强表示。

不难发现，英特尔这家以数据公司定位的硬件厂商，越来越重视软件的力量和价值。OneAPI就是其极力推进的一个软件平台。

可以想象一下，随着硬件架构的多元化发展，由此带来的软件接入、应用编程等也是极其碎片化的，业界也需要自下而上的统一的软件流程来完成应用目标。笔者在与一位业内人士交流时，他就曾提到，“硬件生态的繁荣，最终需要结合软件层面的统一体验，这就好比为AI的最终落地搬开一块大石头。”一句话道出了业界当前越来越重视软件发展的根本原因。

对于英特尔来说，oneAPI是其联合企业合作伙伴推出的一个开放软件平台，或者可以将其理解为一个开放的产业联盟，愿景就是让编程人员能够以一套API去达成未来想要的功能目标。英特尔相当于完成了软件层次上的分工合作，让一部分专业人员把底层硬件的能力用标准化的语言告知上层，让更多的软件开发人员，可以不被底层的硬件差异所困扰，但是可以享受不同硬件组合带来的红利，从而充分释放异构整合带来的优势。

大数据AI开源软件平台，为AI落地保驾护航

AI的落地应用离不开数据的支撑，英特尔院士、大数据技术全球首席技术官、大数据分析和人工智能创新院院长戴金权指出，业界当前对数据关注的重点是如何在数据上建模、预测，进行机器学习、深度学习等，从而指引未来的趋势或决策。而在这方面，面向隐私保护的大数据开源平台能够解决大数据面临的问题或业界普遍的痛点。

当前，常见的大数据AI流水线架构，通常是在数据湖或数据仓库里，利用Hadoop、Spark等大数据软件来进行数据处理。接着进行深度学习/机器学习处理，数据可以从大数据集群，通过中间的数据存储，迁移到深度学习集群上，然后进行深度学习处理。这一常见的方式，其实带来一个很大的问题：很显然，这其中有两个割离的集群、两个割离的工作流，不管是整个平台开销或开发、部署的效率都面临挑战。

英特尔希望通过Analytics Zoo把割离的架构和工作流统一起来，将TensorFlow、PyTorch、BigDL、Ray、OpenVINO等深度学习或AI平台框架，非常紧密地整合在一个标准库中，在大规模分布式架构上无缝扩展到非常大的规模，来处理大量数据。

戴金权强调，数据需要全链条的保护，除了机器学习模型之外，在数据的存储、大数据的处理分析等隐私保护需求下，都需要提供数据隐私保护功能。因此在大数据AI平台上，英特尔非常重视底层的硬件安全技术。

英特尔在最新的至强服务器中引入了SGX，这是一项TEE（Trusted Execution Environment）技术。进行可信执行环境时很重要的一点就是对内存的保护，通过SGX，至强服务器内存保护得到了较大提升，最高可以达到TB级别的保护。

在软硬件安全技术的基础上，英特尔构建了一个统一的大数据平台Analytics Zoo，其价值主要体现在两方面：一是提供端到端的AI大数据流水线，用户可以在一个平台上，用Spark、TensorFlow、PyTorch、BigDL等，进行端到端的大数据处理分析或深度学习。这其中涵盖了相应的软硬件安全支持，包括SGX Enclave、可以通过TLS以及Remote Attestation技术保护网络传输，以及存储和用户的交互等，从而保证用户能够在公有云和私有云上，运行安全的大数据AI处理的应用。二是实现了基于SGX硬件支持的可信的联邦学习，大大提高联邦学习的可信度和大规模数据的可扩展性。

英特尔今年4月和蚂蚁集团合作构建了一个可信的分布式深度学习的推理服务，就是基于蚂蚁集团的Occlum软件，和英特尔SGX以及Analytics Zoo软件，在大数据流式平台上进行实时分布式的深度学习推理，从而提供可信的分布式深度学习的推理服务。“尽管保护会带来一定的开销，但是利用SGX这样的硬件保护带来的开销较低，再加上对深度学习的硬件加速，整体性能可以得到更高的提升”，戴金权表示。

如何加速传统产业智能化？

AI在寻找落地点的很大一个方向就在于传统产业的智能化，但这往往是较难突破的一环。英特尔高级首席工程师、物联网事业部中国区首席技术官张宇博士认为，这需要理解最终用户的痛点，需要兼顾不同用户对数字化的需求。

他提到，AI用户可以分为两种，一种是Green-field，即新兴产业，从一开始就比较容易接受新的数字化技术；另一种是Brown-field，指已部署了一定的系统，需要在已有环境中实现一定的数字化能力。对于不同用户类型，英特尔推行不同的策略。

对于Green-field用户的使用场景，英特尔从端到端的角度提供最新的数字化技术、软件方案，来满足软件定义、负载整合、低碳环保、通信等各方面的能力，再加上广泛的生态合作伙伴，可以通过一些被市场验证过的成熟方案，如物联网行业整体解决方案（Market Ready Solution，MRS）等，推荐给新用户。

对于Brown-field类型的用户，英特尔会站在系统的角度进行分析，在已有架构的基础上，实现附加的系统能力。他以当前城市路口中的高清摄像头为例，这些摄像头大部分只有采集数据的能力，却并没有分析数据的能力。对于这样的一个既有系统，英特尔从系统的角度进行分析：摄像头作为边缘采集设备，需要搭配边缘分析设备——AI Box，进行本地化处理后上传给交通控制部门进行交通控制决策。

AI有没有杀手级应用？

经历了最初的概念期和投资热潮，AI当前总体处于蓬勃上升期。从产业应用角度来看，它从最初集中在人、车、物的识别方面，逐渐在智慧交通、智能城市的应用场景中扩展到了更广泛的领域。那么，随着技术储备的提升，应用需求的浮现，AI会不会出现杀手级应用？英特尔看好哪些垂直应用领域？

张宇认为，AI的杀手级应用其实已经存在于平安城市、智慧城市等领域，进行车牌、车色、车型的识别等，这类应用非常广泛，也的确提升了城市管理水平。排除这类应用之外，AI的落地可以用“五花八门、百花齐放”来形容，每个应用都可以满足场景需求，都可以产生好的结果。只是在部署的规模方面，确实有一定的差异，这也是当前的客观现状。

英特尔如何看待这一现状？张宇认为，多种多样的应用中其实是有共性的。这一轮人工智能，绝大部分应用都是以深度学习为基础的，而深度学习最核心的运算就是卷积神经网络的运算，也就是矩阵的乘法、加法运算。

英特尔为这些应用提供最底层的硬件基础架构，在做硬件设计时就注意加强矩阵计算的性能。这不仅体现在至强可扩展处理器中对DL Boost人工智能指令集的支持，同时还有和矩阵运算相关的指令扩展，从而在更短的指令周期中完成矩阵运算，提升了底层的算力支持能力。此外还有GPU、AI加速芯片VPU等等，来满足特定应用需求。

写在最后

推动AI的规模化创新和应用，必经之路是什么？宋继强强调了三方面：

第一，计算上如何很好地用高性能、高能效的架构去支持多种数据，同时要很好地解决未来海量数据之间的传输、存储，这都是硬件层面需要解决的基本问题。

第二，要真正去拥抱异构集成。异构集成不只是代表封装，它实际上是用组合拳思路去解决产品的领导力、time-to-market的问题。

第三，垂直整合需要瞄准一些可以规模化、通过软硬件结合可以创造更大价值的领域，用应用去拉动多种AI技术的垂直整合。通过这种方式来推动AI创新是大有可为的。

这其实正是面临当前纷繁复杂的AI落地环境，英特尔三个维度的落地思路：第一，做好硬件产品；第二，提供方便使用的软件工具和解决方案；第三，找到能够规模落地的垂直应用，与业界共同构建AI生态。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
2-520103-2	1	TE Connectivity	ULTRA-FAST 250 ASSEMBLY TAB 22-18 AWG BR	ECAD模型下载ECAD模型	$0.49	查看
MCR100-8	1	Motorola Mobility LLC	0.8A, 600V, SCR, TO-92, TO-226AA, 3 PIN		$0.18	查看
35507-0200	1	Molex	Board Connector, 2 Contact(s), 1 Row(s), Female, Straight, 0.079 inch Pitch, Crimp Terminal, Locking, Natural Insulator, Receptacle,	ECAD模型下载ECAD模型	$0.1	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

2-520103-2

TE Connectivity

ULTRA-FAST 250 ASSEMBLY TAB 22-18 AWG BR