最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀(角色扮演游戏排行榜手游)

AIGC动态欢迎阅读

原标题:最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

关键字:缓存,注意力,全局,显存,团队

文章来源:量子位

内容字数:0字

内容摘要:

梦晨 发自 凹非寺量子位 | 公众号 QbitAI什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5?

答案是独角兽Character.ai,由Transformer作者Noam Shazeer(后面简称沙哥)创办。

刚刚,沙哥公布了推理优化独门秘诀,迅速引起业界热议。

具体来说Character.ai在整个服务堆栈中实现了如下成绩:

内存高效架构设计:将KV缓存大小减少20倍以上,而不会降低质量

Attention状态缓存:95%请求无需重算

直接用in8精度量化训练:推理零损失还省显存

Character.AI通过以上种种优化,已经把推理成本降低到最初的1/33,如果用市场上最好的商业API来支撑这种级别的流量,成本会比现在高出13.5倍!

众多公布的方法中,原生int8训练是最受关注的。

虽然大多数技巧都来自公开研究,但是正如网友所说,知道如何把它们高效整合在一起实现的团队才是真正的护城河。

秘诀1:高效利用显存,attention 参数量降低20倍大模型的一大痛点是显存占用高,导致无法支持大批量推理。Attention 层中的 Key-Value(

原文链接:最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?