Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍(h110mde主板)

AIGC动态欢迎阅读

原标题:Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力

快16倍

关键字:矩阵,注意力,乘法,速度

,性能

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:编辑部

【新智元导读】时隔一年,FlashAttention又推出了第三代更新,专门针对H100 GPU的新特性进行优化,在之前的基础上又实现了1.5~2倍的速度提升。FlashAttention又有后续了!

去年7月,FlashAttention-2发布,相比第一代实现了2倍的速度提升,比PyTorch上的标准注意力操作快5~9倍,达到A100上理论最大FLOPS的50~73%,实际训练速度可达225 TFLOPS(模型FLOPs利用率为72%)。

然而,去年发布FlashAttenion-2尚未运用到硬件中的最新功能,在H100上仅实现了理论最大FLOPS 35%的利用率。

时隔一年,FlashAttention-3归来,将H100的FLOP利用率再次拉到75%,相比第二代又实现了1.5~2倍的速度提升,在H100上的速度达到740 TFLOPS。

论文地址:https://tridao.me/publications/flash3/flash3.pdf

值得一提的是,FlashAttention v1和v2的第一作者也是Mamba的共同一作,普林斯顿大学助理教授

原文链接:Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?