揭示Llama 3.1的制作秘密,开启Llama 4培训(揭示的近义词)

1. 揭示Llama 3.1的制作秘密,开启Llama 4培训!_图1

最近,Latent Space发布的播客节目中请来了Meta的人工智能科学家Thomas Scialom。他在节目中揭秘了Llama 3.1的一些研发思路,并透露了后续Llama 4的更新方向。

刚刚发布的开源「巨无霸」Llama 3.1虽然自带论文,但依旧激起了广大网友强烈的好奇心和求知欲。

Llama 3.1都使用了哪些数据?其中有多少合成数据?为什么不使用MoE架构?

后训练与RLHF流程是如何进行的?模型评估是如何进行的?

我们什么时候可以见到Llama 4?Meta是否会发展agent?

1. 揭示Llama 3.1的制作秘密,开启Llama 4培训!_图2

恰逢Llama 3.1版本刚刚发布,Meta科学家在播客节目Latent Space中露面,秉持着开源分享的理念,对以上问题都进行了详细解答。

1. 揭示Llama 3.1的制作秘密,开启Llama 4培训!_图3

受访者Thomas Scialom目前担任Meta的人工智能研究科学家,负责主导了Llama 2和Llama 3的后续训练工作,并参与了CodeLlama、Toolformer、Bloom、GAIA等多个项目。

1. 揭示Llama 3.1的制作秘密,开启Llama 4培训!_图4

Llama 3.1研发思路

如何决定参数规模

其实LLM的参数规模的选择需要考虑多种因素,包括scaling law、训练时间、GPU和硬件的约束等等。

而且,不能只考虑Meta所用的硬件,还有整个人工智能社区,并非所有人都在使用H100,还有许多其他不同的GPU型号和显存大小。

再加上,目前广泛应用于推理阶段的量化技术,比如可以用FP16或FP8精度,这会改变推理和训练/微调成本的比重。

以上这些限制因素,都让模型规模的选择成为一个极具挑战性的问题。

总体而言,专注于目前已有的算力,在Scaling Law和训练token总量的限制内,我们进行了一些权衡,找到了一个具有合适推理效率的平衡点。

之所以做到四百零五B这么大规模,其实原因很简单——我们想做出最好的模型,一个真正与GPT-四比肩的开源模型。(现在是GPT-四o了)虽然目前还没有完全达到目标,但差距正在逐渐缩小。

正如Facebook创始人扎克伯格之前宣布的,Meta公司囤积了越来越多的GPU,因此下一代模型将继续扩展。

对于网友们所说的,无法在家里运行Llama 3.1,这很有可能是真实情况。但如果进行FP8量化,仍然可以在单节点上使用128k的上下文窗口运行。

从另一个视角来看,我们依然依赖开源社区的力量。Llama 1和Llama 2发布初期被认为模型过于庞大,但两周后它们已经能够在树莓派上运行。

虽然无法确定Llama 3.1版本是否会如以往一样,但通过开源模型,我们期待能够见到类似的发展趋势。

1. 揭示Llama 3.1的制作秘密,开启Llama 4培训!_图5

重新审视Scaling Law

我们所熟知的Scaling Law主要关注两个维度,即模型权重和训练量,包括训练时的步数、时期和标记总量等等。

基本上,论文的发现是,模型规模对结果有重要影响。因此,GPT-3犯了一个错误——它的模型参数远远超过了token总量的要求。

1. 揭示Llama 3.1的制作秘密,开启Llama 4培训!_图6

论文地址:https://arxiv.org/pdf/2001.08361

这也正是之后的Chinchilla所发现和强调的,相比最初的Scaling Law,他们更强调了训练数据token总量的重要性。

1. 揭示Llama 3.1的制作秘密,开启Llama 4培训!_图7

论文地址:https://arxiv.org/pdf/2203.15556

Chinchilla论文试图寻找「算力最优化」的训练方法,认为在有限的算力条件下,存在一个最佳的模型参数量和训练token数的比率。

如果您希望在论文基准测试中获得最佳模型,那么Chinchilla本身没有问题;但Meta即将发布的旗舰模型需要更高的推理效率。

因此,我们决定增加训练的token数量,并延长训练时间,使模型达到「过度训练」的状态。

这不符合Chinchilla定律,也会付出额外的算力,但我们希望让模型有更好的推理表现,从而更多地应用于开源社区,因此需要做出一些超越Chinchilla定律的选择。

事实上,这也是Llama 1的研发人员所做的事情。我所说的「不要陷入Chinchilla陷阱」就是这个意思。

1. 揭示Llama 3.1的制作秘密,开启Llama 4培训!_图8

模型架构

相比Llama 2, Llama 3的架构没有太多变化,但是在扩展数据的规模和质量方面,我们作出了很多努力,数据集从2T token增加到15T token。

架构方面,我认为未来会有更多改进,甚至不仅仅局限于Transformer。

目前的Tranformer架构仍然缺少灵活性,例如,我认为对每个token使用相同的算力是毫无意义的,因此还有很多研究的空间。

关于「为什么不使用MoE架构」,这个是我经常听到的质疑,其中的原因有多个方面。

我认为,稠密模型只是MoE的一个特定变体,你可以把它看作只有一个专家的MoE,因此这只是一个还没有优化的超参数而已。

但我们目前正在进行一些工作,未来可能会在这个超参数上继续探索。

关于合成数据

关于数据,我的直觉是,公开互联网上存在大量无效文本,利用这些token来训练模型会浪费计算资源。

在为Llama 2抓取数据时,我们就使用Llama作为分类器,用于过滤出高质量的token,并打上主题标签,比如这段文本是和数学、法律还是政治有关,这样可以实现主题的均衡和多样性。

Llama 3的后训练过程完全没有使用人工书写的答案,仅依靠从Llama 2获得的合成数据。

我非常看好合成数据,而且随着模型性能提升,情况也会变得更好。

LLM的评估与改进

目前的模型研发有一个趋势,就是针对基准分数进行模型的后训练改进。

模型评估是一个开放的研究问题,目前还没有很好的答案,尤其是面对同一个模型有如此多的功能。

当你试图提升模型在某个基准上的分数时,这就不再是一个好的基准了,因为可能会存在过拟合,分数提升未必可以转化成为相似的能力。

因此,语言模型的评估,尤其是训练后评估,是一个非常困难的问题。我们尝试过很多方法,包括用奖励模型,模型作为评判者,使用多样化的提示,多样化的基准测试……

我感觉为Llama 2进行评估要比今天容易多了,当时的模型性能比现在相差很多。现在的模型变得如此出色,以至于很难找到能挑战模型的适当提示,进行性能比较并查看边界情况。

比较模型的一个有效方法是进行多轮RLHF。每次引入新模型时,只需在所有标注的提示上进行抽样,让新旧模型分别作答,然后自动计算胜率。

Llama 4与Agent

Meta已经在6月开始训练Llama 4模型,而且重点可能围绕agent技术,并且已经在Toolformer等agent工具上进行了一些工作。

1. 揭示Llama 3.1的制作秘密,开启Llama 4培训!_图9

论文地址:https://arxiv.org/pdf/2302.04761

但同时也要意识到,如果没有一个优秀的指令模型,Toolformer扩展和未来能力也会大大受限,因此我们研发了Llama 2和Llama 3。

此外,Meta公司也曾在一年前发布了GAIA基准,旨在评估模型在解决现实世界问题方面的能力。

在这个基准的排行榜上,基于GPT-3的agent系统得分几乎接近于零,但GPT-4驱动的系统就有很好的成绩,比如30%~40%,这其中就体现出模型的智力差距。

在我看来,代理人(agent)的各种能力,比如执行函数调用、遵循复杂指令、预先规划、进行多步骤推理等等,与模型的智力差距类似。

1. 揭示Llama 3.1的制作秘密,开启Llama 4培训!_图10

现在有了足够强大的Llama 3,我将重新专注于agent的构建。如果能实现良好的模型互联,形成一个复杂的agent系统,将获得几个数量级的扩展,从而实现规划、回溯、网页导航、代码执行等多种功能。

0
分享到:
没有账号? 忘记密码?