一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%(进行预测)

AIGC动态欢迎阅读

原标题:一次预测多个token,Meta新模型推理加速3倍,编程任务

提高17%

关键字:模型,团队,任务,自然语言,字节

文章来源:量子位

内容字数:2772字

内容摘要:

梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI“预测下一个token”被认为是大模型的基本范式,一次预测多个tokens又会怎样?

Meta AI法国团队推出“基于多token预测的更快&更好大模型”。

多token预测模型,在编程类任务上表现尤其突出。

与单token预测相比,13B参数模型在HumanEval上多解决了12%的问题,在MBPP上多解决了17%。

小型算法推理任务上,多token预测也在分布外泛化方面带来了令人印象深刻的收益。

不过在自然语言任务上,多token预测方法并不能显著提高7B模型在数学选择题上的表现了。

另外一个好处是,即使batch size较大,使用4-token预测训练的模型,推理速度也可提高3倍。

多token预测更适合编程具体来说,团队设计了一种新的多token预测架构,通过n个独立的输出头并行预测n个未来token。

使用大量文本数据进行模型训练,包括代码和自然语言数据集。

再通过实验比较多token预测和单token预测在多个下游任务上的性能。

为啥多token预测在编程任务和小型算法推理任务上提升更明显?

团队猜测可能有两个原因:

原文链接:一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?