加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • x86全新微架构——十年来的重大改变
    • 高性能混合架构——奠定未来十年SoC基础
    • 超异构SoC的硬件集成和异构编程方向
    • Xe 独立显卡率先迈进IDM 2.0时代
    • 写在最后
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

若老黄说GPU性能千倍于CPU,英特尔如何破?

2021/08/24
2234
阅读需 17 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

日前在英特尔架构日2021上,英特尔高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri说道:“在我们所研究的每一个高需求工作负载,遇见的每一位追求创新的客户中,都有一个共同的元性能要求——1000x(千倍级)的提升——他们在问,到2025,英特尔能让我们的工作负载处理能力有1000x(千倍级)的提升吗?”

千倍提升——这是一个耳熟的目标。

2017年,黄仁勋在英伟达GTC大会上,也曾提出过一个“千倍性能差”的预测目标。根据他当时的解读,摩尔定律已进入瓶颈期,包括CPU在内的晶体管增长幅度大幅放缓,造成了单线程性能的提升缓慢。他认为CPU一年10%的增长幅度已经十分理想了,而GPU的性能可每年提升50%。如果没有革命性变化的话,CPU的单线程性能基本只能维持这一水平,到2025年,GPU性能将会达到CPU单线程性能的1000倍。

这道题,英特尔怎么解?到2025年只剩4年时间,要知道这一提升可是摩尔定律的5次方!听起来是一个不能完成的任务。

Raja Koduri表示,为了在2025年满足1000x(千倍级)提升的需求,英特尔要在每个技术领域,实现至少4倍左右的摩尔定律提升。这些领域包括制程工艺、封装、内存和互连,而架构是将它们与软件结合起来的“炼金术”。这些技术的集合可以作为乘法因子,与4倍的提升相结合,就能提供繁重工作负载所需的千倍提升。

最近的架构日上,英特尔展示了一系列重磅创新:两款x86 CPU内核、两款数据中心SoC、两款独立GPU以及面向客户端的多核性能混合架构,覆盖未来云、网、端的工作负载和计算挑战。这其中的创新,既体现了英特尔超异构计算的思路,也有IDM 2.0模式的初步体现,展示了硬件、架构、封装、制程、软件的全面能力,是英特尔十年以来在x86架构方面较大的升级改造,也奠定了下一个十年的发展基础。

x86全新微架构——十年来的重大改变

为什么性能提升的节点卡在2025这一年份上?根源还是数据,海量数据对强大算力和更高计算效能的需求在驱动IT设备的更新换代。IDC最近发布的预测中,认为全球大数据市场的 IT 投资规模有望在 2025 年超过 3500 亿美元,五年预测期内(2021-2025)实现约 12.8% 的复合增长率(CAGR),较上个预测周期上涨。这进一步印证了作为IT基础的处理器芯片蓬勃的发展前景,以及面向新一轮IT投资建设中的升级需求。

x86架构已经问世40多年了,通过大量积累的代码、软件形成了坚固的生态体系,说它是计算架构的统治力量并不为过。但是,面向巨大的数据处理需求,性能、能效无疑是两个重要的度量维度,也是它继续稳定、健康主导未来市场的关键。

最新发布的E-Core、P-Core,是x86架构近十年来最重大的进展。顾名思义,E-Core主打能效、P-Core主打性能,特性如下:

E-Core(能效核):一个高度可扩展的x86微架构,它能满足客户从低功耗移动应用到多核微服务的全方位计算需求。对比英特尔迄今为止最多产的CPU微架构——Skylake,能效核可在相同功耗下提升40%的单线程性能,或者在提供同样性能时,功耗仅为Skylake的40%不到。就吞吐量性能而言,与运行四个线程的两个Skylake内核相比,四个能效核在性能提升80%的同时功耗更低,或者在提供相同吞吐量性能时,功耗降低80%。

E-Core之前的代号是“Gracemont”。根据英特尔x86能效核首席架构师Stephen Robinson的介绍,E-Core可满足大幅缩小芯片尺寸情况下的多核工作负载需求,可提供更宽的频率范围,以通过低电压运行来节省功耗,并为提高频率和提升性能创造更多内部空间,以提供丰富的指令集架构(ISA)功能,如高级矢量和AI指令以加速现代工作负载。

P-Core(性能核):它不仅是英特尔迄今为止性能最高的CPU内核,而且在CPU架构性能方面实现了阶梯式提升。它是一个更宽、更深、更智能的架构,展现出更高的并行性,提高执行并行性,降低时延,提升通用性能。它还帮助支持大数据集和大型代码体积的应用程序。与第11代酷睿架构(Cypress Cove内核)相比,相同频率下,性能核在一系列工作负载上平均提升了约19%。

针对数据中心处理器和机器学习的发展趋势,性能核提供了专用硬件,包括新的英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算,以获得数量级的性能——AI加速提升约8倍。

P-Core此前的代号为“Golden Cove”。英特尔性能核首席架构师Adi Yoaz介绍,它专为速度而设计,在单线程应用中突破了低时延极限。为了不断推动通用性能,英特尔将机器的架构设计得更宽、更深更智能,拥有更深的乱序调度器,可缓冲更多的物理寄存器,具备更宽的分配窗口和更多的执行端口,在机器从正确的路径获取指令并及时获得执行数据的前提下,让机器显现出更高的并行性,并提供更高的性能。它不仅是英特尔迄今为止性能最高的CPU内核,为通用计算带来实质性的改进。

高性能混合架构——奠定未来十年SoC基础

有了E-Core和P-Core,英特尔还需让两者之间无缝衔接、协同运行,才能最大限度提高系统性能和能效。设计团队此时还面临着两个重要挑战:如何超越已知的传统混合架构?如何让两种内核智能地协同运行,从而最大程度地提高性能?

如果遵循传统方法,就是根据固定规则将线程分配给内核,但这显然会带来性能损耗,并增加额外的软件开发。新的解决方案需要具备动态性和自主性,能够让软件堆栈运行在前端,能够帮助操作系统做出更明智的决策,显然,只有硬件解决方案才能满足这些要求。

最新推出的硬件线程调度器(Intel Thread Director),是英特尔PC处理器产品路线图中的重要创新。

英特尔研究院副总裁、英特尔中国研究院院长宋继强指出了它与以往调度方式的根本区别:以往一些多核调度(不论是软件还是硬件),往往是基于电池使用效率方面进行优化的,而这款硬件线程调度器更多是从性能角度来调度,让所有的核能配合在一起更好地服务不同的应用。

它相当于在CPU硬件层级做了硬件遥测的功能,根据当前的混合指令、功耗、I/O负载等情况进行动态、自适应的调整,并提供信息给操作系统。以往,操作系统只能根据有限的可用信息做出决策,比如前台与后台。而硬件线程调度器增加了硬件遥测这个维度,具有更高性能要求的线程会被分配给性能最高的内核,优先级较低、性能要求不高的任务将分配在能效核上运行。

英特尔首个搭载了硬件线程调度器的性能混合架构为Alder Lake,宋继强表示,它重构了多核架构,是英特尔目前最智能的客户端SoC架构,结合了能效核和性能核,适用于从移动端到台式机的产品,并通过多种业界领先的I/O和内存而引领行业变革。新架构的广度也映射了业界对更高计算性能的无尽需求,客户的工作负载愈发庞大、复杂、多样。基于Alder Lake的产品将在今年开始出货。

超异构SoC的硬件集成和异构编程方向

宋继强指出,“此次架构日的发布,对于超异构的理念和技术方向给出了很好的印证,让业界进一步看到了超异构究竟是哪些不同架构之间的互相整合、整合时要用到哪些技术、挑战是什么。”

Ponte Vecchio、Sapphire Rapids——这两款产品都体现了超异构思路。不同之处在于,Sapphire Rapids面向的是更通用的云计算厂商、服务器集群应用,它采用的并不是非常激进的制程,异构集成相对简单,核心是模块化的分区SoC架构,通过EMIB多晶片互连封装技术和先进网格架构,实现了可扩展性,同时仍保持单晶片CPU接口的优势。

而Ponte Vecchio面向超算领域,对性能、功耗,延迟等要求都很高,是当前极致的异构集成体现。这款号称是英特尔迄今为止最复杂的SoC,包含1000亿个晶体管,用于加速人工智能、高性能计算和高级分析工作负载。采用了多种先进的半导体制程工艺、英特尔的EMIB技术以及Foveros 3D封装技术。这款芯片的A0版本实现了超过每秒45万亿次浮点运算的FP32吞吐量,超过5 TBps的持续内存结构带宽以及超过 2 TBps的连接带宽。

宋继强表示,为了应对未来各种不同数据对计算、传输、存储等各方面的要求,必须要用不同的架构、不同的异构集成方式,去做出不同种类的定制芯片方案。这几款SoC产品进一步增添了英特尔超异构战略的信心,并且未来会向更多种类的异构集成方向发展,同时也会有更快的产品迭代周期。

他也强调了软件方面的异构思路,例如在Ponte Vecchio的复杂架构之上,未来可能会与Sapphire Rapids联合使用,构成更大规模的超算,随之而来的问题就是——编程会更加复杂,这就需要用到oneAPI。oneAPI推出了第一版之后,如今已经有超过20万的用户,300多个应用程序在上面使用。这也说明业界在集体推动异构编程的发展,这也将成为未来很多产品的开发方式。

这张图展示了未来加速计算系统的演进,它可以是一个单芯片系统,也可以是4个芯片形成的系统,或是通过4个Ponte Vecchio和2个Sapphire Rapids形成更大的系统。从这个角度看,未来会有更大的算力整合,通过处理器架构、先进封装技术、互连技术以及oneAPI软件层面等全面整合实现的超异构系统,冲顶更高的算力挑战。
    

Xe 独立显卡率先迈进IDM 2.0时代

现在再不进军高性能PC显卡,将会错失游戏、视觉领域的崛起时机:游戏引擎和软件团队正在实时生成近乎真实的游戏视觉效果;先进的硬件正在将所有的视觉元素进行结合;发行商、开发商、游戏玩家和创作者正在不断突破各种极限,并对硬件提出更多要求……

集成显卡毕竟有许多限制,而独立显卡更能释放潜能。去年下半年,英特尔的独立显卡架构Xe公布。在这次的架构日上,英特尔进一步发布了全新的独立显卡微架构Xe HPG,它专为游戏和创作工作负载提供发烧友级别的性能。

Xe HPG微架构采用新的Xe内核,聚焦计算、可编程、可扩展性,Xe内核中的全新矩阵引擎(Xe Matrix eXtensions,XMX)能够加速AI工作负载,比如XeSS这项全新的升频技术(upscaling technology),可以实现高性能、高保真游戏体验。基于Xe HPG的Alchemist SoC(之前代号为DG2)将于2022年第一季度上市,并采用新的品牌名英特尔锐炫。

 
值得一提的是,英特尔和与外部代工共同打造了 Xe-HPG GPU。Alchemist GPU 就是基于台积电的N6制程,这也是英特尔IDM2.0模式的实践。

为什么要使用代工厂而不是内部工厂来制造这些产品?这个决定是如何做出的?

英特尔企业规划事业部高级副总裁Stuart Pann介绍,事实上,英特尔有20%的产品是交由外部代工厂生产的,英特尔是台积电的顶级客户之一。过去,英特尔与代工厂合作生产Wi-Fi模块、芯片组,或以太网控制器等产品线,这些产品采用主流制程节点,对英特尔自身的领先技术形成补充。

从此次架构日的发布可以看出,英特尔在进一步深化与主要代工厂的合作关系。Xe显卡就是第一阶段的成果,Stuart Pann认为,背后的原因很简单:就像设计师为合适的工作负载选用合适的架构一样,英特尔也会为架构选择最适合的制程节点。为英特尔独立显卡产品采用代工厂的制程节点,正是恰当之选。

写在最后

越来越多的半导体产品从SoC向片上封装系统转变,异构集成在驱动着下一轮革新。未来,在不同制程节点上混搭独立的芯片或单元,并使用先进封装技术将它们连接,已经成为显著趋势。

英特尔已经开始全面拥抱这一趋势,在新任CEO帕特·基辛格的带领下,种种打法更为灵活、迅速。今年会是英特尔开启新算力时代的关键年份,未来几年,外部代工生产的芯片单元会在英特尔的产品中扮演更重要的角色——包括采用先进制程节点的核心计算功能,以支持客户端、数据中心和其他领域的新兴工作负载。
 
 

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
ATXMEGA32E5-M4U 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 32UQFN

ECAD模型

下载ECAD模型
$2.73 查看
MCF5282CVM66 1 Freescale Semiconductor MCF5282 V2CORE 512KFLASH
$40.57 查看
ATXMEGA256A3-AU 1 Microchip Technology Inc IC MCU 8BIT 256KB FLASH 64TQFP

ECAD模型

下载ECAD模型
$11.92 查看

相关推荐

电子产业图谱

与非网资深行业分析师。主要关注人工智能、智能消费电子等领域。电子科技领域专业媒体十余载,善于纵深洞悉行业趋势。欢迎交流~