高性能计算的峰值性能只是个神话罢了?

2019-09-08 10:44:00 来源:EEFOCUS
标签:

高性能计算不再像过去那样,其性能尤其会受到现代集群系统的设计限制。德克萨斯大学德克萨斯高级计算中心主任 Dan Stanzione 提供了一个关于这个结论的论据。

 

Stanzione 在最近的 2019 年 MVAPICH 用户组会议上讨论了这个主题,他在 TACC 的新“Frontera”超级计算机的背景下谈到了性能。从各方面来看,Frontera 是世界上最强大的系统之一。理论上它的最高性能为每秒 38.8 千万亿次浮点运算,在高性能  Linpack(HPL)基准测试中成绩为每秒 23.5 千万亿次浮点运算,这个成绩使其成为 TOP500 排行榜上的第五名。

 

Frontera 由 8,008 个双插槽节点组成,在节点之间以 100 Gb/s 的速度与 HDR InfiniBand 相连,并且以 HDR InfiniBand 支持的全速 200 Gb/s 速度运行到网络骨干网的备用上行链路。这些节点由英特尔顶级处理器“Cascade Lake”Xeon SP 8280 驱动,该处理器有 28 个核心,运行频率为 2.7 GHz,每个节点有工作频率为 2.93 GHz 的192 GB DRAM。与去年的“Skylake”Xeon SP 8180 相比,Xeon SP 8280 具有相同数量的内核,但是凭借它更高的内存周期时间,使它的时钟速度提高了 8%,内存带宽增加了 10%。

 

从某种意义上来说,Frontera 仍然在建设中。TACC 刚刚开始添加节点,这些节点将配备基于 3D XPoint PCM 内存的 Optane 持久存储器。该计划是部署 16 个带有 6 TB Optane 内存的节点。这些将是四插槽节点,使用与 Frontera 的 vanilla 服务器相同的 Xeon SP 8280 处理器,他们希望将节点用于突发缓冲和内存数据库处理之类的事情。

 

接下来也会部署 90 个 GPU 节点,每个节点配备 4 个 Nvidia Quadro 5000 RTX显卡。这些工作站 GPU 并不适合数据中心使用,TACC 将使用油浸技术降温(由Green Revolution Cooling 提供)。这一动作的目的是为分子动力学和机器学习等工作负载提供大量的单精度和混合精度性能提供一个计算引擎,又不会像 TACC 那样为双精度和 Tensor Core 数学单元使用顶级 Tesla V100 GPU 加速器支付高昂的费用。

 

即使没有这些专用节点,核心 CPU 集群也足以使 Frontera 成为世界上最强大的学术超级计算机,无论是在峰值性能还是 Linpack 标准方面。但 Stanzione 并不认为这些数字并不意味着一切,虽然他也对 Frontera 的性能感到兴奋。正如我们稍后会谈到的那样,Frontera 实际上正在做它想要做的事情,即运行 HPC 应用程序比之前排名靠前的学术超级计算机 Blue Waters 快得多。但对于 38.8 千万亿次这个数字,Stanzione 却表示,这是一个可怕的谎言。

 

问题就是现在实现峰值浮点计算性能相当困难。而它在过去相当简单:CPU 主频×CPU 每个时钟周期执行浮点运算的次数×系统中 CPU 核心数目,这就是高性能计算峰值性能的方法。

 

但是,当您连续运行 Cascade Lake 的512位高级矢量扩展(AVX-512)设备时,您无法让处理器跑到 2.7 GHz。由于散热问题,英特尔必须降低 AVX-512 设备的时钟频率。在这种情况下,你运行 AVX-512 的频率会低于 2.7 GHz,他解释道。

 

所以即使 Frontera 的理论峰值为每秒 38.8 千万亿次浮点运算,也没有办法实现,理论上甚至没有。根据 Stanzione 的计算,考虑到该处理器的 AVX 频率约为 1.8 GHz,Frontera 的实际峰值性能接近每秒 25.8 千万亿次浮点运算,正如您可能注意到的那样,它更接近 Linpack 的每秒23.5千万亿次浮点运算结果。

 

所有这些都可能有助于解释为什么 Linpack 和峰值性能在 TOP500 列表上不再相关 - 至少对于使用 AVX-512 数学单元的机器而言。Stanzione 认为该指标过去更有用,因为这种相关性更加紧密。例如,当英特尔的“Sandy Bridge”Xeon E5 成为超级计算机的首选处理器时,Linpack 可以达到系统理论峰值的 90% 左右。现在,由于峰值浮点性能指标被误用,典型的 Linpack 收益率通常在 60% 到 65% 左右。顺便说一下,Stanzione 指出,现代所有处理器都存在这种混乱,而不仅仅是英特尔。

 

 

现在估计性能的基本问题是时钟频率是根据芯片工作的功率和热环境动态调整的。这些调整是连续发生的,因此,在任何给定时刻,都没有简单的方法来判断给定节点中给定处理器的运行速度。

 

但是,有一些方法可以优化环境以提高性能。例如,即使 Xeon SP 8280 在向量全速运行时以大约 1.8 GHz 运行 AVX-512 单元,在 Frontera 上,TACC 已设法将其增加到大约 2 GHz。这是采用基于 CoolIT 技术的特别高效的直接水架冷却系统的结果。Stanzione 说你也可以使用噱头来降低 DRAM 的速度来创造额外的热量裕量。TACC 不太可能采用这种技巧,因为一般来说,给 DRAM 降速并不是一个好主意,因为代码更容易受内存限制而不是计算限制。

 

抛开一切,好消息是 Frontera 在其选定的科学应用程序集中实现了所有性能目标。下图说明了机器在每种情况下都超过了这些目标阈值,有时只有几个百分点,在其他情况下,超过 100%。与 Blue Waters 相比,应用程序的运行速度提高了 3.2 倍至 9.5 倍,平均性能提升了 4.3倍。Frontera 还使用了比 Blue Waters 上使用的节点少得多的节点来实现这些性能提升,使得每节点性能提高了 7.8 倍。

 


在这一点上,Frontera 目前有 37 个科学应用程序在其上运行。目前包括模拟黑洞碰撞的一般相对代码,引力波模拟,模拟原子水平相互作用的病毒细胞模拟,光伏材料科学应用,脑癌模拟以及与AI结合的混合应用量子化学模拟。Stanzione 希望 Frontera 最终可以运行数百个应用程序。

 

但不是数千个应用程序,与一些中级 NSF 超级计算机不同,Frontera 与其前身 Blue Waters 一样,旨在用于需要先进超级计算机的规模和功能的能力级应用。因此,一般而言,只需要应用最大的科学和工程问题。“我们真的想在这台机器上为人们节约大量的时间”Stanzione 说。

 

与非网编译内容,未经许可,不得转载!

 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

作者简介
与非网 记者
与非网 记者

电子行业垂直媒体--与非网记者一枚,愿从海量行业资讯中淘得几粒金沙,与你分享!

继续阅读
芯原科创板获受理,大基金为何“看上了”它?
芯原科创板获受理,大基金为何“看上了”它?

与非网9月24日讯,芯原股份有限公司(芯原)是一家集成电路(IC)设计代工公司,为广泛的电子设备和系统如智能手机,平板电脑,高清电视(HDTV),机顶盒,蓝光DVD播放机,家庭网关以及网络和数据中心等提供定制化解决方案和系统级芯片(SoC)的一站式服务。

AMD 这个“万年老二”,这次真的逆袭了?
AMD 这个“万年老二”,这次真的逆袭了?

与非网9月24日讯,一个万年老二,这次真的翻身了吗?

十代酷睿先锋军团集结 PC换新蓄势待发!

最近一段时间颇有感触,我发现网络上的大伙都是口是心非。比如都说好一起组队儿喷iPhone 11了,结果一开卖我去官网下单就看到排队排到了国庆之后才能收到货,敢情大家嘴上说着不要,下手是一个比一个快啊。 

在全球半导体的“猛烈”竞争中,我国身处何位?
在全球半导体的“猛烈”竞争中,我国身处何位?

与非网9月24日讯,半导体是电子元器件产业的重要组成部分,产品可用于通信、计算机、手机、汽车、工业、医疗、军事等领域,在强调“联网化”和“智能化”的时代,半导体产品已遍及生活方方面面,是智能化时代的支撑力量之一。

英特尔的7纳米处理器可能还要再等3年
英特尔的7纳米处理器可能还要再等3年

与非网9月23日讯,英特尔10纳米和14纳米产品双线布局似乎还要再持续一段时间,在一份汇总资料中显示,今年除了酷睿i9-9900KS以及Cascade Lake-X旗舰级产品外,英特尔处理器今年的产品更新基本完成。

更多资讯
韩半导体出口不容乐观,9 月出口骤降40%
韩半导体出口不容乐观,9 月出口骤降40%

与非网9月24日讯,9月韩国在科技产品方面的出口情况不容乐观,半导体出口同比骤降40%,移动通信设备(在出口总额中所占份额较小)的出口则跃升58%。

DRAM价格将迎来反弹?南亚科、华邦电和威刚笑了
DRAM价格将迎来反弹?南亚科、华邦电和威刚笑了

与非网9月24日讯,凭借各类设备搭载DRAM的数量翻番,DRAM市场有望迎来旺季。

当苹果A13遇上麒麟990,各显神通

每年秋季的苹果新品发布会总是会引起一波科技热潮,今年苹果A13的发布更是让苹果与华为之间的竞争更加激烈。更难得的是,苹果这次居然将自己的上一代芯片A12与华为进行了对比,由此可见今年手机处理器领域的火药味有多浓。但是我们不能只看一家之言,最近华为海思发布了麒麟990,虽然两款芯片究竟孰强孰弱无法一眼而观之,但是我们不妨将两者放到起比一比

未来全球半导体封测产业发展分析
未来全球半导体封测产业发展分析

SEMI(国际半导体产业协会)举行「SEMICON Taiwan 2019」展会,本次会议特别以异质整合为主题,探讨5G行动通讯、AIoT及高速运算等技术,驱使相关技术进一步加速导入智能制造、智能汽车、智慧数据及智慧医疗等领域,试图驱动台湾半导体产业的未来发展动能。

先进制程仍是重点趋势,台积电表现有多亮眼?

从SEMICON Taiwan 2019展会上可发现,先进制程仍是半导体产业趋势的重点之一,