Llama3.1训练平均3小时故障一次，H100万卡集群好脆弱，气温波动都会影响吞吐量

原标题：Llama3.1训练平均3小时故障一次，H100万卡集群

好脆弱，气温波动都会影响吞吐量

关键字：集群,故障,问题,团队,模型

文章来源：量子位

内容字数：0字

西风发自凹非寺量子位 | 公众号 QbitAI每3个小时1次、平均1天8次，Llama 3.1 405B预训练老出故障，H100是罪魁祸首？

最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点：

Llama 3.1在为期54天的预训练期间，经历了共466次任务中断。其中只有47次是计划内的，419次纯属意外，意外中78%已确认或怀疑是硬件问题导致。

而且GPU问题最严重，占了58.7%。

Llama 3.1 405模型是在一个含16384块Nvidia H100 80GB GPU集群上进行训练的。虽说针对大规模系统有句老话：唯一确定的就是会出故障。

但这一问题还是引起不少网友关注。

放慢速度，check一下产品吧。

老出故障，咋整？具体来看，在419次意外中断中，148 次（30.1%）是由各种GPU故障（包括NVLink故障）引起的，72次（17.2%）可以具体到是由HBM3内存故障引起。

鉴于H100的700W高功耗和热应力，出现这样的结果也并不意外。

有意思的是，54天内只有两次是CPU出现了故障。

除了GPU外的另一半故障由众多因素导致，比如软件Bug、网

原文链接：Llama3.1训练平均3小时故障一次，H100万卡集群好脆弱，气温波动都会影响吞吐量

文章来源：量子位

作者微信：

作者简介：