英特尔这几年估计心很累。

 

除了 PC 销量下滑、工艺进展迟滞,当英伟达股价上涨、新型 AI 处理器问世、AMD 收购赛灵思、苹果发布新芯片……英特尔每每都要被拖出来吊打一次。

 

是廉颇老矣?还是大象善舞本来就不容易?

 

从英特尔现在的业务情况来看,传统 PC 业务已经从原来的八成下降到现在的五成,而数据中心则一路上扬,营收从原来的二成增长到了五成。或许老牌科技企业都逃不开波峰低谷的发展周期,于是转型就成为必然。

 

从 2017 年开始,英特尔就宣称自己是一家数据公司,因为“数据才是未来的石油”。2018 年底,英特尔宣布最新战略目标,即以制程和封装、XPU 架构、内存和存储、互连、安全、软件六大技术支柱为核心,明确了“以 PC 为中心”转向“以数据为中心”的转型目标。

 

而就在昨晚,英特尔正式发布其首款数据中心独立图形显卡——服务器 GPU,以及 oneAPI Gold 工具包。这也意味着,英特尔六大战略中的 XPU 架构(XPU 架构中的“X”指的是包含 CPU、GPU、专用加速器以及 FPGA 的混合架构)集齐最后一条“神龙”;软件方面,one API Gold 继 Beta 版本发布一年后,也完成了阶段性的跃升。软硬件共同发力,英特尔卯足力气搅动数据中心本来就不平静的池水。

 

局势已经非常明朗,英特尔、英伟达、AMD 都在打造自家的 XPU 架构,通过收购也好、自研也罢,在硬件架构和软件工具上的布局都是一副当仁不让的态势。

 

英特尔加速计算 20 年坎坷路

 

英特尔不是没有过独立显卡 GPU 的尝试,只不过是 20 年前。2009 年末,英特尔宣布取消“Larrabee”图形芯片项目,将重注都押在多核的技术路径上。

 

彼时,英伟达已经推出 Tesla,大举进攻。AMD 也在 2006 年收购了 ATI 后正式进入显卡领域,虽然在 CPU 和 GPU 面临着英特尔和英伟达的双重夹击,却也是成就今天三足鼎立局面的关键一步。

 

英特尔在集成显卡这条路的经济账没毛病。将图像处理的部分整合到 CPU 中,这样一来核心显卡始终是和 CPU 一体的,必要时还是需要调用部分 CPU 的运算能力来提高图像处理效率。当性能需要提升时怎么办?增加核显,还可以提高处理器价格,间接增加利润。或许正因如此,英特尔没有太大动力去开发独显 GPU,在宣布取消 Larrabee 项目时,信誓旦旦表示不会推出独立显卡 GPU,至少短期内不会。

 

被停掉的 Larrabee 后来成为了至强融核(Xeon Phi)协处理器的原型,这是英特尔首款集成众核(Many Integrated Core,MIC)架构的产品,用作高性能计算的超级计算机或服务器的加速卡,顺应了高性能计算市场的异构需求。Xeon Phi 也一度被用到超级计算机上,雄霸世界超算榜单,例如我国的天河一号、天河二号,直到 2015 年 4 月被美国禁止向中国超算中心出口 Xeon Phi。

 

受市场需求颓势的主要影响,2018 年开始,代号为 Knight Landing 的 Xeon Phi 7210、7230 等产品列入停产计划;去年,代号为 Knight Mill 的 Xeon Phi 处理器也启动停产计划,并宣布将在今年 7 月 31 日停止出货。

 

而就在英特尔在加速计算曲折前进的这些年,英伟达 GPU 一骑绝尘,AMD 也在 CPU 和 GPU 双线开花。虽说船大不好调头,但作为巨头,必要时确实要勇于自我 piapia 打脸。

 

2017 年末,原 AMD RTG 总裁、显卡首席架构师 Raja Koduri 离开 AMD,加入英特尔。当时业界就推断英特尔可能要重启独显计划,直到 Xeon Phi 陆续停产,这一猜想在去年达到沸点。

 

直到今年 8 月的架构日上,英特尔曝光了针对数据中心的首款基于 Xe 架构的独立图形显卡,有关英特尔开发独显 GPU 的传言正式得到验证。

 

 
英特尔高级副总裁、首席架构师,兼架构、图形和软件部门总经理 RajaKoduri 发布 Xe 战略

 

Xe GPU 的出现,从多个维度补充了英特尔缺失的拼图。它正式宣告英特尔进军高端 GPU 领域,将触角伸向移动端、桌面端、云游戏、数据中心、高性能计算等多个领域。此外,它作为英特尔向量计算的代表产品,进一步补全了英特尔的 XPU 组合。


XPU 架构成为必争之地

 

仅有 CPU 一条路确实走不通,这一点 AMD 的方向从一开始就是正确的,英特尔这些年也通过买买买扩充了 XPU 架构。

 

2015~2019 这几年间,英特尔都有重磅收购,几乎都是围绕这个架构理念展开的。2015 年收购 FPGA 供应商 Altera,2016 年收购 AI 芯片供应商 Nervana,2017 年收购了 ADAS 芯片供应商 Mobileye 和 AI 芯片供应商 Movidius,2018 年收购 eASIC,2019 年收购云端 AI 芯片供应商 Habana Labs。

 

直到昨天正式推出针对数据中心的首款服务器 GPU,至此,XPU 全家桶已配齐。如果说英特尔之前搁置 GPU 计划是出于市场策略和技术瓶颈,那么,今天重返这一市场,难度就会低吗?英伟达的 GPU 性能不够好吗?AMD 的性价比它不香吗?用户选择英特尔的理由是什么?

 

据英特尔的技术大拿表示,在过去的 20 年里,英特尔其实一直在提供集成图形显卡。而显然,随着工作负载和性能需求都在上升,AI 和流媒体在这些工作负载中的占比也在上升。英特尔正在扩展为更为坚实的 Linux 堆栈,并将从数据中心一些独特的用例开始,比如安卓云游戏和流媒体服务。

 

这是非常明智的一个起步。安卓云游戏在全球游戏开发生态系统中占据 74%的市场份额,增长空间非常大;而流媒体服务涉及高密度的媒体转码和编码,现在小视频、直播盛行,有着巨量的用户市场。英特尔希望通过至强可扩展处理器与全新服务器 GPU 的组合,加上开源和授权的软件组件,通过较低的总体拥有成本(TCO),为安卓云游戏以及实时顶级视频直播的高密度媒体转编码提供高密度、低时延的解决方案。  

 

但不管怎样,英特尔这一次押注数据中心 GPU,将会是更为艰难的挑战。首先庞大的研发投入仍然必不可少,更重要的是,这一次要突围的技术需要多点开花,要在 AI、5G、自动驾驶等领域都要持续投入,基础研发上既要保持专注还要保证核心竞争优势,软件要更易用,生态要更强大。

 

互相渗透的软件生态

 

XPU 的确很强大,但是想要把整个计算系统打通,除了硬件,软件平台也是要搭建的。因为涉及到具体的开发工作,在不同架构之间切换并不容易,尤其是想要跨厂商进行切换的时候,这也是业内普遍的痛点。

 

英特尔曾在 2019 年的 SuperComputing 大会上首次提出 oneAPI,并表示这是为实现统一、简化的跨架构编程模型所提出的愿景,希望能够不受限于单一厂商专用的代码构建,且能实现原有代码的集成。借助 oneAPI,开发者可以针对他们要解决的特定问题选择最佳的加速器架构,且无需为一个架构和平台再重写软件。这不仅能够释放底层硬件的性能潜力,同时能降低软件开发和维护成本。继 Beta 版本发布一年后,相信这次最新发布的 Gold 版本在代码稳定性、成熟度以及性能表现方面值得期待。

 

既然支持跨架构、跨厂商的切换,那么不妨设想一下,如果英特尔、英伟达和 AMD 的芯片同在一个系统中,oneAPI 是否可以提供支持?

 

对这一问题,英特尔方面给出的答案是肯定的,哪怕这个系统中没有英特尔的芯片,也是可以支持的。这意味着什么?它将成为开放的行业规范,任何人都可以运用它,它甚至可以进入英伟达、AMD 的生态系统。面对竞争,英特尔向友商敞开怀抱,并且进入他们的阵营拥抱他们和他们的盟友。oneAPI 就是英特尔在软件乃至生态层面最大的雄心。

 

英伟达的做法异曲同工。在 2019 年法兰克福国际超算大会上,英伟达已经宣布其 CUDA 编程架构开放支持 Arm CPU 架构,向 Arm 生态系统提供全堆栈的 AI、HPC 软件,可支持所有 AI 框架、600 多个 HPC 应用程序的加速,其中包括所有 NVIDIA CUDA-X AI 和 HPC 库、GPU 加速的 AI 框架和软件开发工具,比如支持 OpenACC 的 PGI 编译器和性能分析器。而堆栈优化完成后,NVIDIA 将为所有主流 CPU 架构提供加速,包括 x86、POWER、Arm。

 

AMD 几年前也开始了这样的尝试,其 Radeon 开放运算平台 ROCm,希望通过 CUDA 编译代码转换,进一步支持英伟达的 CUDA 平行运算平台,开始了在软件平台上对英伟达的追赶。

 


写在最后

 

5G、AI 都在催生计算场景的多样性和更为丰富的内涵。未来的数据是多样化的,需要通过多种硬件计算组合来应对多种数据类型,谁能挖掘出最优化的算力组合,谁就能让数据发挥出最大价值。异构计算,不仅是解决摩尔定律走入绝境的一种方法,更是未来所需。这就是为什么英特尔、英伟达、AMD 纷纷在构建自己的 XPU 平台。

 

不过,当三大巨头纷纷端出自己的全家桶时,一个挑战是共通的:进步绝不仅体现在处理性能的提升上,更大的难题在于:如何牢牢抓住应用需求,用极为丰富、灵活的组合给出最优化、最适配的方案?