有钱买卡还不够,10万卡H100集群有多难搭?一文解析算力集群技术要点(算力10m是多少)

AIGC动态欢迎阅读

原标题:有钱买卡还不够,10万卡H100集群

有多难搭?一文解析算力集群技术要点

关键字:集群,交换机,网络,机架,节点

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:乔杨 好困

【新智元导读】在英伟达市值猛涨、各家科技巨头囤芯片的热潮中,我们往往会忽视GPU芯片是如何转变为数据中心算力的。最近,一篇SemiAnalysis的技术文章就深入解读了10万卡H100集群的构建过程。如火如荼的AI竞争中,「算力之战」同样热火朝天。

包括但不限于OpenAI

、微软、xAI和Meta在内的多个头部公司都在争相建立超过10万卡的GPU集群,在这个规模上,仅仅是服务器的成本就超过40亿美元,还要受到数据中心容量和电力不足等多项因素的限制。

我们可以做一个简单的估算,一个10万卡集群每年耗电量约为1.59太瓦时(terawatt·h,即10e9千瓦时),按照美国电力的标准费率0.78美元/千瓦时,每年的用电成本就达到了1.24亿美元。

为了说明10万个GPU集群的强大计算能力,OpenAI在训练GPT-4

时使用了大约2.15e25 BF16 FLOP(21.5百万亿ExaFLOP),在大约2万个A100上进行了90到100天的训练,峰值吞吐量只有6.28 ExaFLOPS。

若使用10万个H100代替A100,峰值将飙升至198/99 FP8/FP

原文链接:有钱买卡还不够,10万卡H100集群有多难搭?一文解析算力集群技术要点

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?