Meta、BAT、字节、零一万物万卡集群构建汇总(bit和字节的区别)

AIGC动态欢迎阅读

原标题:Meta、BAT、字节、零一万物万卡集群

构建汇总

关键字:腾讯,交换机,集群,网络,解读

文章来源:智猩猩AGI

内容字数:0字

内容摘要:

生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯片专场、智算集群技术论坛等7大板块。目前,来自AMD、高通、Habana、壁仞科技、摩尔线程、苹芯科技、亿铸科技、凌川科技、云天励飞、中国移动研究院、北极雄芯等40+企业的嘉宾已确认演讲或讨论。扫码申请免费票或购票参会~01Meta RoCE网络Meta RoCE论文网络拓扑

基于RoCE的AI集群由24K个GPU组成,通过一个三层Clos网络连接。

在底层,每个机架有16个GPU分布在两台服务器上,并通过一个Minipack2 ToR交换机连接。

在中层,192个这样的机架通过集群交换机连接,形成一个拥有3,072个GPU的集群,具有完整的双切带宽,确保没有过订阅。

在顶层,同一数据中心大楼内的8个这样的集群通过聚合交换机连接,形成一个24K GPU的集群。

聚合层的网络连接没有保持完整的双切带宽,而是有一个1:7的过订阅比率。LLama3.1模型4D并行算法和训练作业调度程序都针对网络拓扑进行了优化,以达到最小化跨集群

原文链接:Meta、BAT、字节、零一万物万卡集群构建汇总

联系作者

文章来源:智猩猩AGI

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?