/ 中存储网

Vast Data 推出基于 Nvidia 技术的 AI 工厂数据中心架构

2024-03-19 19:30:59 来源:中存储

Vast Data 推出基于 Nvidia 技术的 AI 工厂数据中心架构

Vast Data Nvidia Bluefield 介绍

基于 Nvidia BlueField-3 数据处理单元 (DPU) 技术,该公司的并行系统架构使其整个操作系统原生分解为 AI 计算机成为可能,从而将超级计算机转变为 AI 数据引擎。

Vast Data Nvidia Bluefield 计划

Nvidia BlueField 网络平台结合了强大的计算能力和集成的硬件加速器,为 AI 创建安全且软件定义的加速计算基础设施。通过为每台 GPU 服务器配备一个专用的 BlueField DPU,该 DPU 运行一个为 Vast 并行服务操作系统提供支持的无状态容器,这种架构设计将存储和数据库处理服务直接嵌入到 AI 服务器中,并提供真正的线性数据服务,旨在扩展到数十万个 GPU。此外,通过从公司的网络连接数据平台基础设施中移除多层 x86 硬件和网络,这种新的 AI 工厂架构降低了与 AI 数据服务相关的成本、占用空间和功耗。

Nvidia 计划

通过与 Nvidia 的合作以及这种首创的集成,Vast Data实现了:

最大限度地提高数据中心效率:其分解共享一切 (DASE) 架构利用 BlueField-3 的处理能力来减少对独立计算和网络资源的需求,从而将 Vast 基础设施的功耗和数据中心占用空间降低 70%。与使用之前的 Vast 分布式数据服务基础设施部署 Nvidia 驱动的超级计算机相比,组合的端到端解决方案可节省超过 5% 的净能耗。

实现前所未有的 QoS:通过为每个 GPU 服务器提供专用且真正并行的存储和数据库容器,这种 AI 工厂架构消除了对数据服务基础设施的争用。该公司的 DASE 架构具有极高的并行性,因此每个 BlueField-3 都可以读取和写入公司数据平台的共享命名空间,而无需跨容器协调 IO。从本质上讲,这种架构在最基本的层面上消除了基础设施争用。这种无争用架构对于需要满足客户合同服务级别目标的多租户服务提供商至关重要,同时还要最大限度地提高所有 GPU 计算资产的利用率。

Vast Data 推出基于 Nvidia 技术的 AI 工厂数据中心架构

增强零信任安全性:这种 AI 工厂架构可确保数据和数据管理受到保护,并与主机操作系统隔离。与使用并行文件系统客户端(对数据服务层有深入了解)的 AI 计算机相比,该公司能够通过标准客户端协议从 BlueField-3 DPU 托管行业标准的网络附加服务、对象服务和数据库服务,从而消除多租户环境中的许多攻击媒介,这些协议不会暴露底层数据平台系统拓扑(例如 NFS), SMB、S3 和 Apache Arrow。

提供块存储服务:该公司的系统由 Nvidia DOCA 软件框架提供支持,可实现容器化服务的快速开发,为托管操作系统提供原生块存储服务——结合 Vast 的文件、对象和数据库服务,为高性能应用程序提供一组数据呈现。

Vast Data 推出基于 Nvidia 技术的 AI 工厂数据中心架构

“我们很自豪能与 Nvidia 合作,帮助实现 AI 计算的工业化,”Vast Data 联合创始人 Jeff Denworth 说。“这种新架构是表达Vast Data Platform并行性的完美展示。借助 Nvidia BlueField-3 DPU,我们现在可以充分发挥我们自公司成立以来一直在努力实现的分解数据中心愿景的潜力。

Vast Data Nvidia Bluefield 计划

该公司的架构(在 AI 服务器的 BlueField DPU 上运行 Vast 软件)首先在专业的 GPU 云提供商 CoreWeave 进行测试和部署。Vast 和 CoreWeave 于 2023 年开始合作,构建一些可扩展的 AI 机器,并帮助世界上许多 LLM 建设者和蓝筹企业客户建立自己的 AI 工厂。

英伟达公司存储技术副总裁Rob Davis表示:“借助Vast的操作系统,下一代加速计算解决方案与下一代加速网络基础设施相结合,使企业和服务提供商能够从更简单、更安全的高性能系统体验中受益。

“Vast 的革命性架构改变了 CoreWeave 的游戏规则,使我们能够完全分解我们的数据中心。我们正在将 Vast 的高级软件直接无缝集成到我们的 GPU 集群中,“副总裁兼工程师 Peter Salanki 说