想跑千亿大模型?算力厂商放大招!CPU通用服务器成为新选择(服务器cpu利用率)

AIGC动态欢迎阅读

原标题:想跑千亿大模型?算力厂商放大招!CPU通用服务器

成为新选择

关键字:模型,内存,服务器,参数,浪潮

文章来源:量子位

内容字数:0字

内容摘要:

克雷西 发自 凹非寺量子位 | 公众号 QbitAI千亿参数规模的大模型推理,服务器仅用4颗CPU就能实现!

在一台CPU通用服务器上,浪潮信息成功跑通了102B大模型推理。

如果推广开来,没有专用芯片的传统行业,不必更换硬件,也能用上AI了。

△浪潮信息通用服务器NF8260G7服务器成功运行千亿参数大模型这套方案以极低的延时,近乎实时地进行推理运算。

如此之大的模型,只靠CPU运行,究竟是怎么实现的?

4颗CPU带动千亿大模型?用CPU在单台通用服务器设备中运行大模型推理,特别是千亿参数的庞然大物,困难是可想而知的。

要想高效运行千亿参数大模型,计算、内存、通信等硬件资源的需求量都非常巨大。

内存方面,千亿参数大约需要200~300GB的显存空间才放得下。

除了内存资源,千亿参数大模型在运行过程中,对数据计算、计算单元之间及计算单元与内存之间通信的带宽要求也非常高。

按照BF16的精度计算,要想使千亿参数大模型的运行时延小于100ms,内存与计算单元之间的通信带宽至少要在每秒2TB以上。

就算解决了这些硬件需求,软件的优化适配同样是一个难题。

由于涉及到大量的并行运算,现有的大模型

原文链接:想跑千亿大模型?算力厂商放大招!CPU通用服务器成为新选择

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?