/ 中存储网

芯片越小,可靠性越低?微小的芯片会造成巨大的纠错挑战

2022-02-14 23:28:01 来源:中存储

发现和纠正现代计算机芯片中的错误是一个日益严重的问题,这已不是什么秘密。 本周在纽约时报 (NYT) 上发表的一篇文章——小芯片,大头痛——表明挑战正在达到关键程度。虽然不是特别技术,但纽约时报的文章包括来自芯片玩家的评论,并引用了谷歌和 Facebook(现在的 Meta)和 AMD 的论文。这是一本快速但引人入胜的读物,提醒人们追踪当今芯片中的错误是一项艰巨的任务。

缩小特征尺寸和增加电路复杂性是罪魁祸首。AMD 2020 年的一篇论文发现,当时最先进的计算机内存芯片“可靠性比上一代低了大约 5.5 倍”。

这是从约翰·马尔科夫(John Markoff)撰写的《纽约时报》文章中摘录的对问题规模的一个很好的描述:

“追踪这些错误具有挑战性,”资深硬件工程师 David Ditzel 说,他是 Esperanto Technologies 的董事长兼创始人,该公司是加州山景城为人工智能应用设计的新型处理器的制造商。他说,他的公司的新刚刚上市的芯片拥有由 280 亿个晶体管制成的 1,000 个处理器。”

芯片越小,可靠性越低?微小的芯片会造成巨大的纠错挑战

“他将芯片比作一座横跨整个美国表面的公寓楼。使用 Ditzel 先生的比喻,Mitra 博士 [Subhasish,斯坦福] 说,发现新错误有点像在那栋楼的一间公寓里寻找一个正在运行的水龙头,只有当卧室灯打开并且公寓门打开时,它才会发生故障开了。”

Markoff 报告说,在过去的一年里,Facebook(大规模静默数据损坏)和谷歌(不计算核心)的研究人员发表了描述计算机硬件故障的研究,这些故障的原因不容易识别。专门测试计算机硬件的斯坦福大学电气工程师 Subhasish Mitra 被引述说:“他们看到了这些无声的错误,基本上来自底层硬件。”

根据这篇文章,英特尔启动了一个项目,帮助为数据中心运营商创建标准的开源软件,以帮助发现和纠正芯片内置电路未检测到的硬件错误。据 Markoff 报道,在大致相同的时间范围内,几位英特尔客户遇到了芯片问题:

“去年,当英特尔的几位客户悄悄地发出警告称他们的系统产生了未检测到的错误时,这一挑战就凸显出来了。全球最大的个人电脑制造商联想 告知其客户 ,几代英特尔至强处理器的设计变化意味着这些芯片可能会产生比早期英特尔微处理器更多的无法纠正的错误。” 英特尔告诉《纽约时报》,特定问题已得到解决,违规设计已更改。

链接到 John Markoff 的《纽约时报》文章,https: //www.nytimes.com/2022/02/07/technology/computer-chips-errors.html