根据定义,HPC(高性能计算)始终处于计算的最前沿,推动处理器、系统和软件设计方面的创新,最终进入更主流的计算系统。

 

随着我们迈向百万兆时代,机器学习和数据分析正在创造许多最具挑战性的 HPC 工作负载。这意味着数据处理和存储,以及在必要时与供应商无关的需求,在构建 HPC 堆栈时变得越来越重要,并从中获得最大收益。那么,目前的技术水平如何,在短期内可能会发生什么变化呢?

 

HPC 的诞生是为了满足对专用计算机进行仿真和建模的需求,其功率是通过每秒的浮点运算来测量的。在 1972 年引进 CRAY 1 超级计算机之前,Seymour Cray 于 1964 年参与了 CDC 6600 系统的开发,该系统具有每秒 300 万次浮点运算的能力,并连续五年成为世界上运算速度最快的计算机。这类系统的使用和用户相对较少,CDC 6600 系统获得了 100 个客户,主要来自大型企业、美国政府和军方。

 

几十年来,HPC 的规模和采用逐渐扩大,包括更多的多核处理器、高性能连接器和集群机器。此外,HPC 制造商还与合作伙伴和应用程序科学家在高性能存储等领域进行了合作设计。

 

根据 Hyperion Research 的数据,如今的 HPC 通常可以达到数十甚至数百万亿次的运算,市场价值超过 112 亿美元,涉及生物和地球科学、化学工程、金融服务、学术界和气象服务等垂直领域。与半个世纪前相比,今天推动 HPC 增长的是大数据,特别是分析,机器学习正逐渐成为形成 HPC 的市场。

 

利用大规模 HPC 的优势意味着创建合适的堆栈,根据 Cray 全球系统工程总监 Rex Tanakit 的说法,其基础是正确的存储架构。如果弄错了,那你对计算能力的巨额投资将一事无成。

 

“随着我们向百万兆迈进,计算将产生大量数据。应用程序将读取大量数据并处理这些数据。 并且,计算和处理将产生更多数据,“他说。“确保你在 HPC 上的投资得到正确使用,是各个层面的要求,这意味着高效快速的存储,可以尽快的进行计算并提供数据。

 

“这一事实适用于所有工作负载,包括典型的和非典型的的——在国家实验室级别,或在使用 HPC 用于各种工作负载和许多不同数据类型的许多不同行业中。 很难有一个适合适合所有人的单一存储设计,”他表示。

 

并非所有 HPC 都一样
HPC 涵盖各种规模的组织。 因此,工作量是多种多样的。 例如,在多个团队共享资源的情况下,同时运行数百万个模拟研究药物发现或天气预测通常意味着需要高速主存储器来保存应用程序中的大量数据。当涉及到国家实验室级的科学时,系统必须使用自定义应用程序,而工程师必须针对代码调整和优化其 HPC 系统。

 

人工智能凭借其机器学习和神经网络,是一个快速增长的市场,它封装了许多这样的用例。包含大数据、分析、处理速度,以及为新代码或自定义代码构建和调整系统的需求。由于软件的突破,人工智能正在进入 HPC,以前更多的开发人员可以访问代码,并且能够在 HPC 的计算和存储上运行。

 

“在这里获取数据和数据架构至关重要。人工智能是数据的巨大消费者 ,以速度和规模提供数据。scale 元素基于一个合理大小的数据集,以便人工智能模型开始学习。“Tanakit 继续说。

 

Cray 认为,只要将新数据输入模型,算法就会随着时间的推移而改进。 这需要大量的数据存储和处理能力。因此,选择能够平衡性能、可伸缩性和可用性的系统是明智的。

 

根据 Tanakit 的说法,500 GB 已成为一个相当大的数据集,但我们可能有很多这样的数据集,如今,对于一个典型的人工智能工作负载,一个 PB 或半个 PB 是很常见的。但企业通常无法回答的问题是:“你的数据集是什么样子的。”

 

要回答这个问题,需要正确的工具来运行和收集数据。“做分析很重要,然后进行配置,并将技术与工作负载正确匹配,”Tanakit 说。

 

人工智能只是一个例子。在这些大型系统中,越来越多的应用程序落入不断增长的“数据密集型”的范畴。其它领域包括基因组学、计算化学、蛋白质建模、高级天气模拟和预报,以及油气地震处理。它们的共同特点是计算密集型、具有高水平的网络性能和大量内存。

 

平衡容量与性能
针对不同类型的工作负载和工作流程,最佳的优化存储平台类型是什么? 同一系统可能需要处理各种大文件、流数据和小文件的混合。这些混合工作负载将需要一个混合硬件设置,包括适合流式传输的传统 SAS 磁盘驱动器和用于高 IOPS 的固态硬盘。

 

这意味着要用正确的磁盘与闪存的比率构建一个存储体系结构。很少有公司能够负担得起全部使用闪存来管理 PB 级的数据。而且闪存并不是一种适合长期存储和检索的媒体。在工业用例中,这仍然给识别数据与优化磁盘和 SSD 之间的数据移动带来了挑战。

 

通过 Cray 的 ClusterStor L300N 存储系统提供的策略驱动存储,其 NXD 加速器可识别并将小数据块指向 SSD 和大数据流到磁盘。ClusterStor L300N 存储系统管理混合 I/Os,它将新硬件配置与软件相结合,提供自动功能,无需单独的存储层即可有选择地提高性能。该软件还包括读取持久性、回写、I/O 直方图、性能统计和动态刷新。带有 NXD 闪存加速器的 ClusterStor L300N 存储系统,可以无缝地处理并行文件系统的小文件 I/O 和大顺序 I/O。

 

当然,业界也在讨论闪存以及基于闪存的 HPC 存储系统。闪存有望成为 HPC 存储中必不可少的技术,将成为 HPC 存储领域的一项重要技术。

 

从性能的角度来看,所有的闪存系统具有很大的吸引力,它大约比磁盘快 15 倍。因此,Flash 在每个 IOPS 的价格和吞吐量上很容易击败磁盘。然而,闪存的容量存储成本很高,大约是磁盘的 5 倍。考虑到这一事实以及磁盘的占用空间和混合 I / O 工作负载的性质,磁盘驱动器将在一段时间内成为现实,使 HPC 中的存储成为一种混合应用。

 

计算集群和较慢的基于磁盘的存储层之间的基于闪存的存储层可以为超级计算机提供更快的存储资源。但如何跨越这个复杂的世界呢?

 

使用闪存和磁盘时,无需使用单独的存储层、强制数据移动,不需要用户重写或重新编译应用程序,也不需要复杂的策略引擎来处理工作流。

 

简而言之,它应该对用户,应用程序和所选的文件系统透明。

 

除了 NXD 的 ClusterStor L300N 存储系统外,Cray 最近还推出了 ClusterStor L300F 存储系统,这是一个完整的闪存双机架单元,拥有 24 个 SSD 机箱,旨在创建一个具有加速的混合闪存、磁盘系统,可指导 I / O. 到适当的存储介质。 L300F 简化了存储管理,因为它允许管理员使用现有的工具和技能在基于 lust 的文件系统中创建闪存池。

 

光泽和开放性
如今,ClusterStor 存储系统完全基于 Lustre 并行文件系统,这实际上是顶级超级计算环境中的标准,根据 2018 年 6 月的超级计算机 500 强排名,前 100 强系统中有 77%使用 Lustre。

 

作为开放系统和并行文件系统的领导者,以及 OpenSFS 的联合创始人和赞助者,Cray 以社区驱动的 Lustre 为基础,使用 Cray 经过验证的 HPC 存储系统架构解锁 Linux 集群和超级计算机的性能。

 

Cray 很早就意识到,无论是在架构上还是在经济上,专有文件系统将难以满足未来的存储需求。作为 Lustre 用户组的主要参与者,Cray 工程师与所有参与者保持联系,他们定期向社区贡献专业知识和代码。

 

2017 年末,CRAY 通过与希捷的战略交易,收购了自己的 Lustre 开发和支持团队,增加了许多已经在 CRAY 工作的 Lustre 开发和支持工程师。在参与最新版本 Lustre(2.11)的 18 个组织中,Cray 在提交的数量和更改的代码行数方面都是第三大贡献者。

 

Cray 的贡献包括:为一个已经很强大的文件系统增加企业可靠性,包括自适应超时、池和易用性附加功能,并提高了对大型生产站点的吸引力。

 

当然,Lustre 已针对磁盘进行了优化,但闪存呢?Cray 正在为闪存优化 Lustre,包括服务器端配置、设置和 IOPS 性能调优。通过闪存优化,Cray 正在减少隐藏在磁盘技术背后的软件本身的延迟。Cray 还表示,它将探索在 SAS、NVM Express 和 NMV Express over Fabrics 中实现实施闪存的用例。随着这些优化的完成,Cray 将把它们全部贡献给社区。

 

勿止步不前
很明显,对于 HPC 应用程序,只有混合存储架构和开放系统模型才能为真正的百万兆计算创建可行的路线图,既保护现有投资,又提供可伸缩的迁移路径。

 

今天,每个人都在讨论 HPC 的计算部分以及向百万兆的转变,但存储在这个领域变得越来越重要。除非能在 SSD 和磁盘之间建立有效数据,否则不要购买大规模计算。

 

这样可以避免产生瓶颈,优化工作负载效率并得到最大化投资回报。否则,我们会发现这只在静止状态下,并没有充分利用大量 CPU。

 

与非网编译内容,未经许可,不得转载!