加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 一、什么是并行处理单元?
    • 二、拥有三大核心优势
    • 三、100倍的CPU性能提升是如何实现的?
    • 四、提升现有软件和应用程序的性能
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

CPU 2.0时代来了?Flow PPU可使任何CPU性能提升100倍!

06/13 16:59
3020
阅读需 13 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

6月13日消息,近日芬兰著名的 VTT 技术研究中心旗下的一家科技初创公司Flow Computing宣布一则爆炸性的声明称,其推出的并行处理单元 (PPU)可以“使任何 CPU 架构的性能提高 100 倍”!

据介绍,Flow的FPU能够集成到任何当前已有或即将推出的CPU设计架构、指令集或工艺几何结构中,可提供革命性的 100 倍加速,可立即用于基于冯·诺依曼的标准计算机设计,以实现“CPU 2.0”级别的吞吐量。PPU还消除了在高性能应用程序中对 CPU 指令使用昂贵的 GPU 进行加速的需要。

Flow称,片上集成的 PPU 内核越多,获得的性能提升就越高。同时,SoC当中的其他计算单元也将受益于PPU的性能的提升,以及PPU对CPU性能的提升。

此外,通过Flow提供的编译器对 PPU 进行重新编译,PPU 与该 CPU 架构的每个现有软件应用程序可完全向后兼容,可以大大加速所有现有软件和应用程序中的现有并行功能,而无需更改任何软件。

从应用来看,Flow的突破性架构将可增强嵌入式系统数据中心的性能,适用于边缘和云计算AI 云、跨 5G/6G 的多媒体编解码器自动驾驶汽车系统、军用级计算等用途。

目前,Flow 已经在与来自世界各地的主要半导体供应商进行初步讨论,以寻求下一代 CPU 性能的“圣杯”。更多技术细节将在 2024 年下半年公开分享。

Flow Computing联合创始人兼首席执行官Timo Valtonen表示:“在过去的几十年里,CPU性能只有渐进式的改进,这导致了CPU实际上已成为计算中最薄弱的环节,因为它的顺序架构并不理想。为了满足对更多计算性能的不断增长的需求,CPU性能的新时代已成为必要条件,这在很大程度上是由人工智能以及边缘和云计算的需求推动的。Flow 打算通过其全新的并行性能单元 (PPU) 架构引领 SuperCPU 革命,使任何 CPU 的性能提升 100 倍,无论架构如何,并具有完全的向后软件兼容性。”

Butterfly Ventures的合伙人兼联合创始人Juho Risku也表示:“由于CPU改进速度在过去十年中放缓,科技行业的每个行业都继续受到影响。Flow 是这一趋势的第一个重大变革者,它提供了数倍的性能,而不是几个百分点。而且在我们看来,Flow 将对计算市场的基线性能产生比量子计算等更广泛的影响。尽管很多公司在人工智能方面投入了大量资金,但通用计算将主导其成本并限制其能力。Flow Computing正在通过使下一代SuperCPU轻松超越当前的行业领导者,如Apple M系列,Nvidia Grace,Google Axion和Microsoft Azure Cobalt 100来解决这个问题,“

据悉,Flow公司刚刚获得了 400 万欧元的种子轮融资。参与种子轮融资的实体包括Butterfly Ventures(领投)、FOV Ventures、Sarsia、Stephen Industries、Superhero Capital和芬兰商务促进局。

一、什么是并行处理单元?

据Flow公司官网介绍,并行处理单元 (PPU) 是一个 IP 模块,可以与同一芯片上的 CPU 紧密集成。它被设计为高度可配置,以满足众多用例的特定要求。

支持的自定义选项包括:

PPU 中的内核数(4、16、64、256 等)

功能单元的数量和类型(如 ALU、PPU、MU、GU、NU)

片上存储器资源(缓存、缓冲区、暂存器)的大小

对指令集进行了修改,以补充 CPU 的指令集扩展

对 CPU 的修改很少,包括将 PPU 接口集成到指令集中,并可更新 CPU 内核的数量,以利用新的性能水平。

Flow的参数化设计允许广泛的定制,包括 PPU 内核的数量、功能单元的种类和数量以及片上存储器资源的大小。性能会随着 PPU 内核数量的增加而增加。4 核的 PPU 非常适合智能手表等小型设备,16 核 PPU 非常适合智能手机,而 64 核 PPU 可为 PC 提供出色的性能;256 核 PPU 最适合 AI、云和边缘计算服务器等高需求环境,使它们能够轻松处理最苛刻的计算任务。

二、拥有三大核心优势

据介绍,Flow的并行处理单元 (PPU)具有三大核心优势:

1、Flow 创新的并行处理单元 (PPU) 将 CPU 性能提升 100 倍,开创了 SuperCPU 时代。

创新的并行处理单元 (PPU)专为完全向后兼容而设计,可在重新编译后增强现有软件和应用程序。功能越并行,性能提升就越大。

同时,Flow的技术还增强了整个计算生态系统。比如,辅助组件(矩阵单元、矢量单元、NPU 和 GPU)也可通过增强的 CPU 功能获得了增强的性能。这一切都要归功于 PPU。

2、传统软件和应用程序速度提高 2 倍

Flow 的 PPU 不仅可以在不改变原始应用程序的情况下增强遗留代码,而且在与重新编译的操作系统或编程系统库配对时也能提高性能。

因此,PPU可以帮助各种应用程序中大幅提高速度,特别是那些显示并行性但受到传统基于线程的处理限制的应用程序。PPU 释放了这些应用的全部潜力,而在以前的架构终无法实现这样的性能显著提升。

3、参数化设计

可配置的参数化设计使PPU能够适应多种用途。一切都可以定制,以满足多个用例的特定要求。PPU 内核数支持4核、16核、64核、256核或更多功能单元(如 ALU、PPU、MU、GU 和 NU)的类型和数量。甚至片上存储器资源(缓存、缓冲区和暂存器)的大小也可以根据特定要求进行定制。性能的可扩展性与 PPU 内核的数量直接相关。

三、100倍的CPU性能提升是如何实现的?

那么,Flow公司是如何通过其PPU来实现对于CPU性能100倍提升的呢?据介绍,Flow解决了 CPU 面临的延迟、同步和虚拟级并行性方面的挑战,在这些技术中的创新和关键专利被实施到 PPU 中,它们将共同推动CPU实现 100 倍的性能提升。

1、延迟隐藏

当前冯·诺依曼架构的多核 CPU面临内存访问延迟问题,尤其是共享访问,对多核 CPU 来说是一个巨大的挑战。频繁的内存存取会减慢执行速度,核心间通信网络会导致额外的延迟。传统的缓存层次结构会导致一致性和可伸缩性问题。

Flow公司的PPU则是将内存引用的延迟,通过在访问内存时执行其他线程来进行隐藏。这没有一致性问题,因为没有缓存放置在网络的前面。可扩展性通过高带宽片上网络提供。

2、同步

当前多核 CPU使用并行性会带来额外的挑战。由于 CPU 处理器内核固有的异步性,每当存在线程间依赖关系时,就需要同步线程。这些同步代价很大,通常需要 100 到 1000 个时钟周期。

相比之下, PPU每个步骤只需要同步一次,因为线程在一个步骤中彼此独立,将开销成本降低到 1。同步与执行重叠,将开销成本降低到 1/100。

3、虚拟ILP/LLP

当前多核 CPU对低级并行性的次优处理。只有当指令是独立的时,才能在多个功能单元中执行多个指令。管道危险会减慢指令执行速度。

相比之下,PPU功能单元被组织为一个链,其中单元可以使用其前身的结果作为操作数。可以在执行的一个步骤内执行依赖代码,消除管道危险。

四、提升现有软件和应用程序的性能

Flow技术完全向后兼容所有现有的传统软件和应用程序。PPU 的编译器会自动识别代码的并行部分,并在 PPU 内核中执行这些部分。

此外,Flow 正在开发一种 AI 工具,以帮助应用程序和软件开发人员识别代码的并行部分,并提出简化这些部分以实现最大性能的方法。

小结:

虽然Flow表示其PPU能够为任何当前的冯·诺依曼架构的CPU带来最高100倍的性能提升,但是并未给出明确的指标数据来进行解释,只是说明了会从延迟、同步和虚拟ILP/LLP等方面进行入手来进行改进。并且正如其官网所介绍的,PPU还拥有4到256核的配置,需要配备多少核PPU才能带来100倍性能提升,Flow并未解释。另外,软件的重新编译也是实现 100 倍性能改进的必要条件。该公司表示,软件的重新编译可以使得现有代码的运行速度将提高 2 倍。

另外,PPU是并行处理单元,而GPU的优势也是在于并行计算。Flow甚至还表示,PPU消除了在高性能应用程序中对 CPU 指令使用昂贵的 GPU 进行加速的需要。那么是否意味着,CPU+PPU的组合在某种程度上可以实现超越GPU的AI加速能力?

Flow还在一份常见问题解答文档中解释了其 PPU 与现代 GPU 之间的主要区别。“PPU 针对并行处理进行了优化,而 GPU 针对图形处理进行了优化。”这家初创公司对比称:“PPU 与 CPU 的集成度更高,你可以将其视为一种协处理器,而 GPU 是一个独立计算单元,与 CPU 的连接更为松散。”它还强调了 PPU 不需要单独内核及其可变并行宽度的重要性。

Flow表示,它将在今年下半年提供有关PPU的更多技术细节。至于Flow PPU的商业化进展,它提到了与 AMD、Apple、Arm、Intel、Nvidia、Qualcomm 和 Tenstorrent 等公司合作的可能性。Flow 的 PR 强调了其对 IP 许可模式的偏好,类似于Arm的授权模式,客户需要付费获取其PPU IP,以便嵌入到其CPU设计当中。

编辑:芯智讯-浪客剑

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
STM32H757XIH6TR 1 STMicroelectronics RISC Microcontroller
暂无数据 查看
TMS320F28335PGFA 1 Texas Instruments C2000™ 32-bit MCU with 150 MIPS, FPU, 512 KB flash, EMIF, 12b ADC 176-LQFP -40 to 85

ECAD模型

下载ECAD模型
$29.61 查看
PIC32MX795F512L-80I/PF 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 14 X 14 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下载ECAD模型
$10.4 查看

相关推荐

电子产业图谱