GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑千亿参数大模型？（怎么用gpu跑代码）

原标题：GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑千亿参数大模型

？

关键字：模型,参数,报告,内存,张量

文章来源：新智元

内容字数：0字

新智元报道编辑：编辑部

【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了！马斯克19天建成由10万块H100串联的世界最大超算，已全力投入Grok 3的训练中。

与此同时，外媒爆料称，OpenAI

和微软联手打造的下一个超算集群，将由10万块GB200组成。

在这场AI争霸赛中，各大科技公司们卯足劲加大对GPU的投资，似乎在暗示着拥有更多、更强大的GPU，就能让自己立于不败之地。

然而，这种对高端GPU的狂热追求，并非在所有情况下，都是完美无缺的解决方案。

Pytorch之父表示，技术报告中暗藏了很多基础设施的有趣细节，包括如何并行化，如何让系统更可靠等等

就拿稳定性来说，在Llama 3.1训练的54天里，Meta的1.6万块H100集群总共遇到了419次意外中断，相当于平均每3小时发生一次。

而在这之中，有148次（30.1%）是由于各种GPU故障引起的。

相比之下，由CPU故障引发的中断，只有2次。

另一方面，想要把Llama 3.1 405B跑起来，还得搭配2台8×H100的DGX工作站才行——即1280GB的显存。

曾经有位勇士尝试用一张4090运行，结果等了30分钟

原文链接：GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑千亿参数大模型？

文章来源：新智元

作者微信：

作者简介：