/ 中存储网

Graphcore推出用于AI工作负载的下一代智能处理单元

2020-07-17 16:46:27 来源:科技号

英国硬件设计公司Graphcore于2016年悄然崛起,推出了第一代智能处理单元(IPU),该公司宣布了其下一代IPU平台:IPU-Machine M2000。借助新的M2000,Graphcore承诺“将具有更大的处理能力,更多的内存和内置的可伸缩性,以处理非常大的机器智能工作负载。” 该平台现已开始预购,将于2020年底开始批量生产。

 

第二代IPU机器(M2000)。图片由Graphcore提供。

第二代IPU机器(M2000)。图片由Graphcore提供。

M2000计算刀片(Graphcore称之为“即插即用”)通过Graphcore的四个新的7nm Colossus Mk2 GC200 IPU处理器提供了1千万亿浮点数的“机器智能”计算能力,每个处理器都包含1,472个独立的IPU内核,并且超过架构中的594亿个晶体管Graphcore称之为“有史以来最复杂的处理器”。GC200在处理器内部还包含一个“前所未有的” 900 MB高速SRAM,与Graphcore的第一代IPU相比,速度提高了三倍。

该系统由Graphcore的Poplar软件堆栈支持,允许用户在Poplar组装计算图和必要的运行时程序时应用其首选的AI框架。第二代系统与Graphcore的第一代Mk1 IPU产品完全向后兼容-当然,速度提高了八倍。

Graphcore开发的一种新的浮点格式称为 AI-Float,可为机器学习计算调整能量和性能。F P32 IEEE浮点算法通过FP16.32(16位乘以32位累加)和FP16.16(16位乘累加)得到支持,但是Graphcore指出,通过使用随机舍入,Colossus Mk2 IPU可以将所有算术保持在16位格式,从而“减少内存需求,节省读写能量,并减少算术逻辑中的能量,同时提供完全准确的机器智能结果。” Graphcore表示,AI-Float还为稀疏算术浮点运算提供了本机支持。

Graphcore通过其1U超薄刀片设计强调了M2000的可扩展性。扩展到超过八台M2000的配置将使用Graphcore的机架式IPU-POD 64 ,该IPU-POD 64 包含内置在19英寸机架中的16台M2000,可提供高达16 exaflops的(AI-Float)机器智能计算性能。

对于这种规模的连接,Graphcore正在使用其新的低延迟IPU-Fabric技术,该技术表示“在将通信延迟从10个IPU扩展到成千上万个IPU的同时,可使通信延迟接近恒定。” 用户将能够选择自己喜欢的CPU和IPU(通过以太网连接)的组合,他们将能够使用Graphcore的Virtual-IPU工具动态地配置这些IPU。

虽然要到第四季度才能开始全面供货,但Graphcore仍在吹捧许多早期客户,包括微软,牛津大学,劳伦斯伯克利国家实验室,Atos和Simula研究实验室。 

“我们与Graphcore合作,使他们的Mk2 IPU系统产品,包括IPU-Machine M2000和IPU-POD横向扩展系统,可为我们的客户(特别是大型欧洲实验室和机构)使用,”战略与业务部高级副总裁Arnaud Bertrand说道。 Atos大数据系统的研发。“我们已经在计划与欧洲的早期客户一起为他们的AI研究项目构建IPU集群。IPU的新架构可以提供一种更有效的方式来运行AI工作负载,这适合Atos的脱碳计划,我们很高兴与欧洲AI半导体公司合作,共同实现这一未来。”

通过第二次齐售,Graphcore旨在破坏Nvidia在竞争日益激烈的AI芯片市场中的市场领导地位-他们可能会有不错的表现。Moor Insights&Strategy AI高级分析师Karl Freund表示:“有了这一新产品,Graphcore可能现在就成为向Nvidia挑战数据中心AI的第一人,至少在大规模培训方面如此。”