GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!(英伟达芯片是哪个国家的)

AIGC动态欢迎阅读

原标题:GPU推理时代终结?世界最大芯片

加持推理狂飙20倍,英伟达H100也被干趴!

关键字:模型,内存,芯片,带宽,速度

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:桃子 好困

【新智元导读】LLM若以每秒1000+token高速推理,当前最先进的GPU根本无法实现!Cerebras Inference一出世,推理速度赶超英伟达GPU,背靠自研的世界最大芯片加持。而且,还将推理价格打了下来。LLM若想高速推理,现如今,连GPU都无法满足了?

曾造出世界最大芯片公司Cerebras,刚刚发布了全球最快的AI推理架构——Cerebras Inference。

运行Llama3.1 8B时,它能以1800 token/s的速率吐出文字。

不论是总结文档,还是代码生成等任务,响应几乎一闪而过,快到让你不敢相信自己的眼睛。

如下图右所示,以往,微调版Llama3.1 8B推理速度为90 token/s,清晰可见每行文字。

而现在,直接从90 token/s跃升到1800 token/s,相当于从拨号上网迈入了带宽时代。

左边Cerebras Inference下模型的推理速度,只能用「瞬间」、「疯狂」两字形容。

这是什么概念?

比起英伟达GPU,Cerebras Inference的推理速度快20倍,还要比专用Groq芯片还要快2.4倍。

原文链接:GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!

联系作者

文章来源:新智元

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?