英伟达新研究：上下文长度虚标严重，32K性能合格的都不多（英伟达最新技术）

原标题：英伟达新研究：上下文长度

虚标严重，32K性能合格的都不多

关键字：模型,长度,上下文,任务,长上

文章来源：量子位

内容字数：0字

西风发自凹非寺量子位 | 公众号 QbitAI无情戳穿“长上下文”大模型的虚标现象——

英伟达新研究发现，包括GPT-4

在内的10个大模型，生成达到128k甚至1M上下文长度的都有。

但一番考验下来，在新指标“有效上下文”上缩水严重，能达到32K的都不多。

新基准名为RULER，包含检索、多跳追踪、聚合、问答四大类共13项任务。RULER定义了“有效上下文长度”，即模型能保持与Llama-7B基线在4K长度下同等性能的最大长度。

这项研究被学者评价为“非常有洞察力”。

不少网友看到这项新研究后，也非常想看到上下文长度王者玩家Claude和Gemini的挑战结果。（论文中并未覆盖）

一起来看英伟达是如何定义“有效上下文”指标的。

测试任务更多、更难要评测大模型的长文本理解能力，得先选个好标准，现圈内流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等，要么仅评估了模型检索能力，要么受限于先验知识的干扰。

所以英伟达剔除的RULER方法，一句话概括就是“确保评估侧重于模型处理和理解长上下文的能力，而不是从训练数据中回忆信息的能力”。

RULER的

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破