/ 中存储网

焱融科技 YRCloudFile 率先支持 NVIDIA GPUDirect Storage(GDS)

2023-03-16 16:50:39 来源:中存储

2020 年 GPT-3 模型的参数量首次突破千亿大关,达到了 1750 亿,堪称“大力出奇迹”。今日凌晨,万众瞩目的大型多模态模型 GPT-4 正式发布!GPT-4 是多模态的,同时支持文本和图像输入功能。该版本“更强大”,模型精度随着模型尺寸及训练数据的增加而显著提升。

训练巨量模型需要巨大的算力,但随着数据集和模型规模不断增加,应用程序载入数据所花费的时间变得越长,进而影响了应用程序的性能,缓慢的 I/O 严重拖累GPU 的强大算力。如何大幅提升 GPU 载入大型数据集的速度将是计算和存储系统共同面临的最大挑战。为更加完美地满足大规模计算集群对于存储系统的数据访问需求,进一步发挥强大的 GPU 计算能力,将性能发挥到极致,焱融技术团队历时 个月的时间完成对 NVIDIA GPUDirect Storage(GDS)的适配开发,实现以直接内存的存取方式,将数据传输至 GPU 内存上,显著降低 I/O 延迟,提升数据带宽。

GDS 简述

现代 AI 和数据科学工作是由大量数据驱动的,随着人工智能以及高性能运算的数据集规模不断增加,GPU 计算和数据中心存储系统之间的快速通信变得至关重要。数据从 NVMe 磁盘传输到 GPU 内存的标准路径,传统的方式是由 CPU 控制的,使用系统內存中的回弹缓存(Bounce Buffer)做数据的中转。这种操作过程会产生额外的数据拷贝工作,造成很大的系统开销。当数据集的规模不断增加,应用程序载入数据花费的时间会变得越来越长,进而影响了应用运行的性能。

焱融科技 YRCloudFile 率先支持 NVIDIA GPUDirect Storage(GDS)

NVIDIA GPUDirect Storage(GDS) 技术通过 DMA 引擎将硬盘数据直接写入 GPU 显存,这种以直接内存的存取方式,避免了内存 bounce buffers 所带来的额外数据拷贝,从而实现 CPU 和主存的 IO 旁路,使 IO 吞吐能力不再受限于系统总线的带宽压力。近来,由于高速 RDMA 网络的普及,GPUDirect storage 可以高效地直接访问远端存储设备,诸如一些 NVMe的 target 方案和一些企业级分布式存储产品,它能有效减轻 CPU I/O 瓶颈,提升数据传输的 I/O 带宽的同时,降低I/O延迟。

支持 GPUDirect 技术的性能收益

英伟达开发的 GPUDirect Storage 技术,大幅提升 GPU 载入大型数据集的速度。GDS 通过更快、更直接的数据路径提高了存储和 GPU 之间数据移动的效率。数据直接从主机上的网卡(NIC)传输到 GPU,而不需要经过系统内存和 CPU。这种方式消除了系统架构中 IO 路径瓶颈,减少了不必要的数据复制,降低了延迟,同时,释放出来的计算资源还可用于深度学习中诸如图形处理等其他业务。NVIDIA 表示通过支持 GPUDirect 技术能够带来多方面的性能收益:

• GDS 在存储和 GPU 之间提升 2~8 倍的数据传输带宽。

• 避免了 CPU 在内存中的 bounce buffers 拷贝,在某些场景下端到端传输的延迟能够实现 3.8x 的降低。

• 当 GPU 并发度增加时,GDS 仍然保持稳定的低延迟输出。

• GPU 不仅作为实现最高带宽的计算引擎,同时也作为实现最高 IOPS 的计算引擎。

• 在某些场景的实测数据表明,如果单纯使用 CPU,吞吐率仅能达到 50GB/s;而在使用 GPU 之后,吞吐率可达到 215 GB/s。因此,能支持 GDS 的存储系统更能充分匹配前端的异构计算能力。

焱融科技 YRCloudFile 率先支持 NVIDIA GPUDirect Storage(GDS)

GPUDirect Storage 架构图

焱融分布式文件存储系统 YRCloudFile 支持 GDS 的大体流程:

YRCloudFile 客户端向 nvidia-fs 注册后,cuFile 打开一个 YRCloudFile 集群文件,会将 nvidia-fs 和 YRCloudFile 的特定接口进行绑定,当 io 下发到 client 中,client 检测该 IO 是否是 GDS 的请求,如果是,则回调 nvidia-fs 的 map 接口,获得 sglist 请求的 dma 地址,借助底层驱动能力,实现数据的RMDA 传输。

NVIDIA®Magnum IO GPUDirect® 技术,能够显著降低 GPU 服务器内的 CPU 占用率,增加存储带宽并减少延迟。焱融科技是国内支持 GPUDirect® 功能的首家分布式文件存储厂商,能够更好地管理数据路径。焱融文件存储系统与 GDS 的组合使得数据在应用程序和存储之间通过更短、更有效的路径传输,实现 1+1>2 的功能效果。从而使支持 GDS 的应用程序能够充分释放 GPU 计算能力,为人工智能和机器学习(AI/ML)以及数据分析等业务加速。

2022 年,焱融追光全闪文件一体机单存储节点达到 40GB/s+ 带宽和 200万+ IOPS 性能,并应用于人工智能、智能汽车、智能制造、教育等行业生产环境中,为企业用户成功构建高性能存储平台。在服务全球 500 强制造业的客户中,完成国内首个双 200Gb 网络聚合分布式文件存储集群部署,实现 AI 计算平台破千万 IOPS 性能实践。