/ 中存储网

PNNL和美光致力于研究混合 HPC/AI 工作流的新内存架构

2022-03-10 10:11:57 来源:中存储

大部分 HPC面临的问题是计算性能受到内存的限制。虽然处理器速度有所提高,实现了专业化和并行性,但将数据移入和移出处理器的能力并没有跟上。主要是由于混合 AI/HPC 工作流程的兴起及其对异构架构的依赖。现在,来自太平洋西北国家实验室和内存技术供应商美光的一组研究人员开始了一个项目来帮助缓解这一瓶颈。

该项目由 PNNL 的计算首席科学家 James Ang和美光 近数据计算首席架构师 Tom Brewer 领导,旨在创建第三级内存层次结构并利用 CXL 标准。ASCRDiscovery 中的工作有一个简要说明。

正如布鲁尔解释的那样。“主机会有一些本地内存,GPU 会有一些本地内存,但主容量内存可以通过交换机访问所有计算资源,这将允许扩展更大的系统。” 这种统一的内存可以让研究人员使用深度学习算法来运行模拟,同时将结果同时反馈给算法。”

Brewer 表示,美光与 PNNL 的合作将研究混合新旧内存技术以提升高性能计算 (HPC) 工作负载,包括努力“改进内存设备本身以及着眼于我们如何采用传统的高性能内存设备和更高效地运行应用程序。”

正如研究人员所描述的,“在部署 AI 的 HPC 系统中,高性能但低容量的内存(通常是千兆字节)通常与 GPU 耦合,而具有低性能但高容量内存(TB)的传统系统是通过传统的 HPC 主力、中央处理单元 (CPU) 松散耦合。[该项目] 将创建概念验证共享 GPU 和 CPU 系统,并将它们与数百 TB 范围内的其他外部存储设备相结合。未来的系统将需要快速访问 PB 级内存——容量是单个 GPU 或 CPU 的一千倍。”

研究人员表示,集中式存储系统也有利于操作,因为算法或科学模拟可以与另一个负责分析这些数据的程序共享数据。这些融合的应用程序工作流程在 DOE 的科学发现挑战中是典型的。PNNL 高级计算机科学家 Andrés Márquez 说,共享内存和移动它涉及其他技术资源。另一方面,这种集中式内存池将有助于缓解过度配置内存的问题。

Ang 认为CXL 标准在 HPC 中越来越受欢迎。下面是 CXL 的简要说明。

链接到 ASCRDiscovery 文章,https: //ascr-discovery.org/2022/02/memory-boost/

特色图片:超级计算测试台的合成视觉效果。图片由 Jeff London/太平洋西北国家实验室提供。

PNNL和美光致力于研究混合 HPC/AI 工作流的新内存架构

CXL:
计算快速链接(CXL) 是一种开放的行业标准互连,可在主机处理器和加速器、内存缓冲器和智能 I/O 设备等设备之间提供高带宽、低延迟的连接。它旨在通过支持异构处理和内存系统以及人工智能、机器学习、分析、云基础设施、网络和边缘云化、通信系统和高性能计算中的应用来解决不断增长的高性能计算工作负载。它通过在基于 PCI Express (PCIe) 5.0 的 I/O 语义之上启用一致性和内存语义来实现这一点,以优化不断发展的使用模型中的性能。这变得越来越重要,因为在这些新兴应用程序中处理数据需要标量、向量、