从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+（代码sans）

原标题：从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

文章来源：量子位

内容字数：8026字

西风发自凹非寺量子位 | 公众号 QbitAI让大神Andrej Karpathy一键三连❤️（点赞+转发+评论），一个教你从头开始实现Llama3的代码库爆火。

X上转赞收藏量超6.8k，GitHub揽星2k+。

火就火在，它教你从头用Meta开源的权重进行推理，详细解释和展开了注意力机制中多个头的矩阵乘法、位置编码以及所有中间层。

换句话说，他解释了每行代码都在干啥。

Karpathy看后直呼打造者Nishant Aklecha（后文暂称“纳哥”）是个有品的人：

完全展开后，比起模块相互嵌套和调用时，更容易理解每一步具体在做什么。

网友们对其也是赞不绝口，纷纷致敬：

话不多说，一起来看纳哥是如何手把手教的。

（量子位在不改变原意的基础上，进行了编译整理）

从头实现llama3在运行纳哥提供的文件前，大伙儿需要预先下载Meta官方提供的Llama3模型权重。

纳哥表示自己没搞器，推荐用Karpathy的现成简洁版BPE代码。PS：

“字节级（byte-level）”BPE算法，在UTF-8编码的字符串上运行，广泛应用于大模型分词。Karpathy提供的这个代码库包含两个分词器，都

原文链接：从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破