只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架(斯坦福大学的加速器)

AIGC动态欢迎阅读

原标题:只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架

关键字:张量,寄存器,硬件,内存,指令

文章来源:机器之心

内容字数:20123字

内容摘要:

机器之心报道

机器之心编辑部提高 GPU 利用率,就是这么简单。AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需求,并提高现有 AI 计算效率。

为了回答这一问题,来自斯坦福的研究者在博客《GPUs Go Brrr》中给出了答案。博客地址:https://hazyresearch.stanford.edu/blog/2024-05-12-tk

文章主要专注于两个问题:一是硬件真正需要什么?二是如何满足硬件需求?

文章用大量篇幅讨论了如何让 GPU 更快的运行,并发布了一个库 ThunderKittens,用户可以很容易地在 CUDA 上编写快速的深度学习内核。其具有以下特点:

简单,ThunderKittens 写起来非常简单。

可扩展性,如果用户需要 ThunderKittens 无法提供的功能,可以进行功能扩展。

速度快。GitHub 链接:https://github.com/HazyResearch/ThunderKittens

ThunderKittens 使得一些棘手的事情变得非常简单,从而在现代硬件上实现了非常高的利用率。项

原文链接:只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

0
分享到:
没有账号? 忘记密码?