NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4(怎么把nvidia弄出桌面快捷方式)

AIGC动态欢迎阅读

原标题:NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4关键字:模型

,上下文,长度,长上,下文

文章来源:夕小瑶科技说

内容字数:0字

内容摘要:

夕小瑶科技说 原创作者 | Richard在 Llama-3.1 模型发布之前,开源模型与闭源模型的性能之间一直存在较大的差距,尤其是在长上下文理解能力上。

大模型的上下文处理能力是指模型能够处理的输入和输出 Tokens 的总数。这个长度有一个限制,超过这个限制的内容会被模型忽略。一般而言,开源大模型的上下文长度普遍较短,例如 Llama3 的上下文长度为 8K;而闭源模型的上下文长度则要比开源模型长的多,例如OpenAI

的 GPT-4 Turbo 支持 128K 的上下文长度。这意味着闭源模型能够一次处理更多的信息,从而在复杂任务中表现出更强的能力。

最近 NVIDIA 研究团队在开源模型 Llama-3 的基础上,通过一系列创新技术,将其上下文长度从原来的 8K 扩展到了 128K,将 Llama-3 的上下文长度扩展到原始的 16 倍。在长上下文理解能力上,扩展之后的 Llama3-ChatQA-2-70B 模型甚至超越了 GPT-4。

研究团队使用经过处理的 SlimPajama 数据集生成了 100 亿个 token 的 128K 长度的数据集。为了适应较长的上下文,研

原文链接:NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4

联系作者

文章来源:夕小瑶科技说

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?