250行代码从头搭建Llama 3，GitHub一天4.6k星！Karpathy大赞（一千多行代码的模块功能复杂吗）

AIGC动态欢迎阅读

原标题：250行代码从头搭建Llama 3，GitHub一天4.6k星！Karpathy大赞

文章来源：新智元

内容字数：25704字

内容摘要：

新智元报道编辑：乔杨好困

【新智元导读】Llama 3发布一个月后，一位开发者在GitHub上创建了名为「从头开始实现Llama 3」的项目，引起了开源社区的广泛关注。代码非常详细地展现了Llama所使用的Transformer架构，甚至让Andrej Karpathy亲自下场「背书」。Llama系列作为为数不多的优质开源LLM，一直受到开发者们的追捧。在Hugging Face社区的文本生成模型中，几乎是「霸榜」的存在。

就在520这天，一位名叫Nishant Aklecha的开发者在推特上宣布了自己的一个开源项目，名为「从头开始实现Llama 3」。

这个项目详细到什么程度呢——

矩阵乘法、注意力头、位置编码等模块全部都拆开解释。

而且项目全部用Jupyter Notebook写成，小白都可以直接上手运行。

堪比哈佛NLP小组曾经出品的「The Annotated Transformer」。

https://nlp.seas.harvard.edu/annotated-transformer/

才一天多的时间，小哥发表的这篇推特已经有32万次阅读，甚至被Andrej Karpa

原文链接：250行代码从头搭建Llama 3，GitHub一天4.6k星！Karpathy大赞