/ 中存储网

HPC超算购买者研究:FPGA加速器受青睐,主要模拟和分析领域

2021-02-26 15:40:50 来源:中存储

行业分析公司Hyperion Research已经完成了对高性能计算购买者和用户的最新研究,这是自2017年以来的首次研究,该报告揭示了一个快速发展和创新的行业,其中最终用户正在研究如何利用多样性计算架构,同时还要求可以在一个屋顶下弥补模拟数据分析差距的HPC系统。

Hyperion说,该研究调查了在26个国家/地区托管194个政府,学术和工业HPC数据中心的资源,做法和购买计划,Hyperion表示,该报告着重强调了私营部门站点,以使人们能够更深入地研究特定行业。

调查结果包括:

英伟达GPU在这一类别中占有可观的领先优势,但AMD GPU势头强劲。

加速处理器异质性: Hyperion称,有75%的站点使用加速器/协处理器。该公司表示,英伟达GPU在这一类别中占有可观的领先优势,但AMD GPU势头强劲。

“ Nvidia仍然占主导地位,这毫无疑问,” Hyperion HPC市场动态高级顾问Steve Conway告诉我们,“但是AMD从一开始就取得了不错的成绩,实际上使Nvidia失去了一些业务……而且,它们的优势之一是它们的CPU和GPU都在同一芯片上”(使用户能够避免学习GPU编程模型)“因此,您不需要(数据)来回传递太多,对于某些在这种情况下,这可能是非常重要的优势。”康威说。

在CPU方面,AMD相对于Intel取得了增长,原因有两个。康韦说:“其一是价格普遍较低,其二,存储带宽非常非常好。” “因此,AMD现在处于良好的位置,但与非常主导的x86播放器和非常主导的GPU播放器作战。”

FPGA加速器也获得了HPC市场认可,从2017年的5%增长到现在的18%。康韦说,某些部门的用户(例如金融服务)将使用这种快速的架构来优化其最重要应用程序的性能。

他说:“这是一个典型的FPGA场景:他们拥有一个比其他任何应用程序都重要的应用程序,而其他任何人都没有该应用程序,并且他们每天24/7/365运行该应用程序,”他说。“因此,一些投资银行告诉我们,他们会将其移植到GPU并加快3倍至4倍的速度。这样一来,他们就有信心花时间将其移植到FPGA,然后将其速度提高30倍至40倍。移植到FPGA上需要做更多的工作,但是如果应用程序真的很重要,并且在很多情况下始终运行它,那么这是值得的。”

计算能力的飞速发展: Hyperion表示,其2017年的研究表明,该站点最大的HPC系统的峰值性能平均为3.9 petaFLOPS。新的研究表明,平均水平几乎翻了两番,达到15.4PF。

康韦说:“令人惊讶的是,它在短短几年内迅速增长。” HPC的正常性能增长率每10年大约增加1000倍。因此,在短短几年内拥有几乎四倍大的系统……是非常令人惊讶的。”

供应商种类:尽管接受调查的51%的最终用户应用程序仍在单个节点上运行,但是28%的站点具有15个以上的HPC系统,不仅指出了HPC站点中系统的数量,而且还指出了系统的种类。

Conway说,在HPC供应商中,特别是较新的供应商中,普遍存在误解,即购买者仅每隔几年购买一次新系统,并且坚持使用一个供应商。

“不,如果您去他们的数据中心,他们的HPC数据中心中可能有六个不同公司的系统,” Conway说,“因此,与大公司的合作就不太一样了。”

全合一Sim-Analytics: Conway说,对于高效的HPC系统的市场需求正在增长,这种高效的HPC系统可用于计算密集型仿真和数据密集型分析。

“我们正处于一个有趣的时期,” Conway说,“因为目前,大多数人别无选择,只能在现有的HPC系统上运行(分析工作负载),而在过去的几十年中,这种HPC系统变得越来越对计算友好,对数据不友好。这就是GPU之所以如此成功的原因,它可以作为一种插件来帮助解决该问题……因为如果您今天购买了一个擅长分析的系统,那就太过分了,您为仿真付出了太多。”

英伟达GPU在这一类别中占有可观的领先优势,但AMD GPU势头强劲。

从用户的角度来看,HPC工作负载越来越需要模拟和分析功能

“事实证明,大多数重要的AI用例-无论是精密医学还是自动驾驶汽车的研究-都可以在相同的工作负载上运行并发模拟和分析,因此,您真的想要高效的HPC系统(两个)。”

新的互连技术(例如HPE-Cray的Slingshot结构,英特尔的CXL和加拿大的Rockport Networks)正在满足这种需求。

康韦说:“您需要一种非常好的在系统内部移动数据的方法,这与数据的设计有关。”

云考虑因素: Hyperion表示,数据本地性已超越数据安全性,成为利用云计算的最著名障碍。

康威说,在云端移动和存储海量数据是一个主要限制,他引用一家大型石油和天然气公司几年前在距旧中心200英尺的范围内建造了一个新的HPC中心,“移动它们花了将近三个月的时间。数据200英尺。”

康韦说:“数据局部性可能是影响云计算中HPC的最后一个重要障碍。” “即使云服务提供商也不建议公司(如果它们在靠近某些本地HPC资源的前提下拥有大量数据,他们也不建议他们将这些数据移至云中。”)他说,云供应商通常会提出一种多云服务策略,它们是客户的本地计算资源和其他云之间的“控制点”。

云端HPC增长:尽管如此,Hyperion在2017年的研究显示,只有4%的HPC站点在公共/外部云中运行的HPC工作负载超过一半;在新的研究中,这一数字增长到了12%。

其他发现:

C ++和Python是领先的并行编程语言,但是将近一半的站点仍在使用Fortran。

Infiniband仍然是领先的存储系统骨干协议,但是以太网正在迅速崛起。