号称“史上最强大开源模型”的Llama3,凭什么价值百亿美金?(常用的ai开源框架)

4月19日,Facebook母公司Meta发布了一款名为Llama3的重要产品。

即便现在人们对于大型公司和行业巨头频繁更新AI模型的行为已经司空见惯,Meta的Llama3仍然独树一帜,因为它是目前最强大的开源AI模型。

Meta推出了重磅级产品Llama,显然是指向了OpenAI,也就是要在激烈的行业竞争中追赶领先者OpenAI。由此,我们也能看出Meta在人工智能领域的雄心壮志。

号称“史上最强大开源模型”的Llama3,凭什么价值百亿美金?_图1

成为最强开源模型,Llama3究竟是如何被打造出来的?

之所以说Llama3是“最强开源”,是因为它在模型架构,预训练数据,扩大预训练规模以及指令微调方面都做出了重要的优化。

号称“史上最强大开源模型”的Llama3,凭什么价值百亿美金?_图2

在模型架构方面,Llama 3 采用了相对标准的纯解码器 transformer 架构。与 Llama 2 相比,Llama 3更进行了几项关键改进。Llama 3 使用了一个 128K token 的 tokenizer,它能更有效地编码语言,从而大幅提高模型性能;Meta还在 8B 和 70B 大小的模型中都采用了分组查询关注,以便提高Llama3的运行效率;此外,Meta还在8192 个 token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。

在训练数据方面,Meta 表示,要训练出最佳的语言模型,最重要的是策划一个规模庞大且高质量的训练数据集。根据数据现实,Llama 3 在超过 15T 的 token 上进行了预训练,训练数据集是 Llama 2 的7倍,包含的代码数量达到了Llama 2 的4倍。为了应对多语言使用情况,Llama 3 的预训练数据集中有超过5%的部分是高质量的非英语数据,涵盖了30多种语言。而为了确保Llama 3始终在最高质量的数据上进行训练,Meta还开发了一系列数据过滤管道,例如启发式过滤器,NSFW 过滤器,语义重复数据删除方法,文本分类器等,以便更好地预测数据质量。与此同时,Meta还进行了大量实验,确保 Llama 3 在各种使用情况下都能表现出色,包括琐事问题,STEM,编码,历史知识等。

在扩大预训练规模方面,为了让Llama 3 模型有效利用预训练数据,Meta 为下游基准评估制定了一系列详细的扩展规则。这些扩展规则使他们能够选择最佳的数据组合,并就如何更好地使用训练计算做出最佳决定。更重要的是,在实际训练模型之前,扩展规则允许他们预测最大模型在关键任务上的性能,这有助于 Llama 3 在各种用例和功能中都能发挥强大的性能。

在指令微调方面,为了充分发挥预训练模型的潜力,Meta进行了创新。他们在后期训练方法中结合了监督微调(SFT),拒绝采样,近似策略优化(PPO)以及直接策略优化(DPO),以提高聊天用例的效果。

官方表示即将推出超过400亿+版本…开源的超过400亿+足够令人期待。

此次Llama3的发布,还有一点引人瞩目,那就是Meta官方表示,即将在不久的未来推出400B+版本。

Meta 官方表示,Llama 3 8B 和 70B 模型只是 Llama 3 系列模型的一部分,他们后续还将推出更多版本,其中就包括模型参数超过 400B 的 Llama 3 版本,这一版本目前仍在训练中。

号称“史上最强大开源模型”的Llama3,凭什么价值百亿美金?_图3

在接下来的几个月中,Meta将会不断推出新的功能和更新,以提升用户体验。这些新功能包括更多的模态选择,更长的上下文窗口,不同大小版本的模型以及更强的性能。此外,还将发布关于Llama 3研究论文的相关内容。

此外,Llama 3 模型将很快会在多个云平台上提供,包括AWS,Databricks,Google Cloud,Hugging Face,Kaggle,IBM WatsonX,Microsoft Azure,NVIDIA NIM以及Snowflake,并且得到了AMD,AWS,Dell,Intel,NVIDIA以及Qualcomm等硬件平台的支持。

当然,大家最期待的,还是即将推出的,参数超过400B+的版本。目前Llama3模型的最强参数是70B。这个数据已经十分优秀了,完全有能力和GPT-4-Turbo,Mistral-Large,Claude3-Opus相媲美。不过,相较于巨头的最强模型,仍旧存在不小的差距。这也是大家如此期待400B+版本的重要原因。

当然,大家最期待的,还是即将推出的,参数超过400B+的版本。目前Llama3模型的最强参数是70B。这个数据已经十分优秀了,完全有能力和GPT-4-Turbo,Mistral-Large,Claude3-Opus相媲美。不过,相较于巨头的最强模型,仍旧存在不小的差距。这也是大家如此期待400B+版本的重要原因。

号称“史上最强大开源模型”的Llama3,凭什么价值百亿美金?_图4

400B+的版本仍在训练中,单就目前释放出的评测结果来看已经非常强了,可以说是Llama开源size中的“超大杯选手”。据悉,该模型的训练成本将达到10亿美元。目前我们还不清楚Meta是否会开源这个“超大杯”模型。一旦开源,对于国内的大型模型公司来说无疑是个重大利好。相信在此之后,也会有很多公司争先跟进,推出后续的应用。但凡事都有两面,对于OpenAI,Anthropic,Mistral,Google这些巨头而言,这未必是个好消息。

在“开源大模型”时代,人工智能是否会变得越来越难以控制?

人工智能(AI)大模型如雨后春笋般不断涌现,让我们见识到了AI的不断增强和智能化,也让我们对未来感到了危机感。

号称“史上最强大开源模型”的Llama3,凭什么价值百亿美金?_图5

人工智能是否会变得越来越难以控制?

对此,Meta CEO 马可.扎克伯格也在最近接受的访谈中表达了自己的观点。他认为,人工智能(AI)的定位应该在于“一项非常基础性的技术”。它的存在应该像计算机一样,将催生一系列全新的应用。人们之所以会担心AI会失控,很大程度上是因为它发展的速度太快了,一时之间我们无法适应。

然而,根据扎克伯格的观点,由于存在许多物理限制,这种情况不太可能发生。但是,毫无疑问的是,人工智能将真正改变我们的工作方式,并为人们提供创新的工具来从事不同的工作。它将使人们能够更自由地追求他们真正想做的事情。

号称“史上最强大开源模型”的Llama3,凭什么价值百亿美金?_图6

事实上,我们无法预知人工智能未来的发展路径究竟是怎样的,是会真的给人类带来福祉,还是会给人类带来灾难。但有一点值得肯定:开源的人工智能系统确实有助于建立一个更公平,更平衡的竞技场。如果开源的机制可以成功运作,那应该会成为大家所期待的未来。

0
分享到:
没有账号? 忘记密码?