英伟达新研究:上下文长度虚标严重,32K性能合格的都不多(英伟达最新技术)

AIGC动态欢迎阅读

原标题:英伟达新研究:上下文长度

虚标严重,32K性能合格的都不多

关键字:模型,长度,上下文,任务,长上

文章来源:量子位

内容字数:0字

内容摘要:

西风 发自 凹非寺量子位 | 公众号 QbitAI无情戳穿“长上下文”大模型的虚标现象——

英伟达新研究发现,包括GPT-4

在内的10个大模型,生成达到128k甚至1M上下文长度的都有。

但一番考验下来,在新指标“有效上下文”上缩水严重,能达到32K的都不多。

新基准名为RULER,包含检索、多跳追踪、聚合、问答四大类共13项任务。RULER定义了“有效上下文长度”,即模型能保持与Llama-7B基线在4K长度下同等性能的最大长度。

这项研究被学者评价为“非常有洞察力”。

不少网友看到这项新研究后,也非常想看到上下文长度王者玩家Claude和Gemini的挑战结果。(论文中并未覆盖)

一起来看英伟达是如何定义“有效上下文”指标的。

测试任务更多、更难要评测大模型的长文本理解能力,得先选个好标准,现圈内流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等,要么仅评估了模型检索能力,要么受限于先验知识的干扰。

所以英伟达剔除的RULER方法,一句话概括就是“确保评估侧重于模型处理和理解长上下文的能力,而不是从训练数据中回忆信息的能力”。

RULER的

原文链接:英伟达新研究:上下文长度虚标严重,32K性能合格的都不多

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?