斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快（斯坦福phd offer发放时间）

原标题：斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快

文章来源：量子位

内容字数：0字

西风发自凹非寺量子位 | 公众号 QbitAIAI算力资源越发紧张的当下，斯坦福新研究将GPU运行效率再提升一波——

内核只有100行代码，让H100比使用FlashAttention-2，性能还要提升30%。

怎么做到的？

研究人员从“硬件实际需要什么？如何满足这些需求？”这两个问题出发，设计了一个嵌入式CUDA DSL工具，名为ThunderKittens（暂且译为雷猫）。

雷猫可简化AI内核的编写，同时充分利用底层硬件能力。

具体来说，雷猫的主要抽象是寄存器和共享内存中的小型张量块（tile），和目前GPU中对小矩阵乘法的优化相匹配。

通过操作这些tile，开发者可相对简单地编写代码，充分利用张量核心、异步数据传输和共享内存等硬件特性。

使用雷猫实现的注意力机制内核，代码量少且能实现很高的硬件利用率，性能超过直接使用底层库（如Cutlass）。

详细讨论过程以及雷猫是怎么设计出的，研究人员以“GPUs Go Brrr”为题，发在了斯坦福Hazy Research的Blog网站上。

网友们对此讨论也十分热烈。

有网友表示读这篇Blog时，让他想起了初次了解超标量CPU架构时的

原文链接：斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破