从零复现Llama3代码库爆火,大神Kapathy一键三连,GitHub狂揽2k+(代码sans)

AIGC动态欢迎阅读

原标题:从零复现Llama3代码库爆火,大神Kapathy一键三连,GitHub狂揽2k+

关键字:向量,矩阵,注意力,权重,模型

文章来源:量子位

内容字数:8026字

内容摘要:

西风 发自 凹非寺量子位 | 公众号 QbitAI让大神Andrej Karpathy一键三连❤️(点赞+转发+评论),一个教你从头开始实现Llama3的代码库爆火。

X上转赞收藏量超6.8k,GitHub揽星2k+。

火就火在,它教你从头用Meta开源的权重进行推理,详细解释和展开了注意力机制中多个头的矩阵乘法、位置编码以及所有中间层。

换句话说,他解释了每行代码都在干啥。

Karpathy看后直呼打造者Nishant Aklecha(后文暂称“纳哥”)是个有品的人:

完全展开后,比起模块相互嵌套和调用时,更容易理解每一步具体在做什么。

网友们对其也是赞不绝口,纷纷致敬:

话不多说,一起来看纳哥是如何手把手教的。

(量子位在不改变原意的基础上,进行了编译整理)

从头实现llama3在运行纳哥提供的文件前,大伙儿需要预先下载Meta官方提供的Llama3模型权重。

纳哥表示自己没搞器,推荐用Karpathy的现成简洁版BPE代码。PS:

“字节级(byte-level)”BPE算法,在UTF-8编码的字符串上运行,广泛应用于大模型分词。Karpathy提供的这个代码库包含两个分词器,都

原文链接:从零复现Llama3代码库爆火,大神Kapathy一键三连,GitHub狂揽2k+

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?