Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据（触礁是什么损失）

原标题：Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本

数据

关键字：数据,政策,报告,模型

,文本

文章来源：新智元

内容字数：0字

新智元报道编辑：乔杨

【新智元导读】训练数据的数量和质量，对LLM性能的重要性已经是不言自明的事实。然而，Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水，他们预测，互联网上可用的人类文本数据将在四年后，即2028年耗尽。数据和算力，是AI大模型最重要的两把「铲子」。

算力方面，英伟达的不断创新和各家代工厂的产能提高，让世界各处的数据中心拔地而起，研究人员暂时不用担心计算资源。

然而，近些年来，数据成为愈发严峻的问题。

根据华尔街日报的报道，OpenAI

在训练GPT-5时已经遇到了文本数据不足的问题，正在考虑使用Youtube公开视频转录出的文本。

关于「数据耗尽」这个问题，非营利研究机构Epoch AI在6月4日发布了一篇最新论文。

根据他们的预测，未来10年内，数据增长的速度无法支撑起大模型的扩展，LLM会在2028年耗尽互联网上的所有文本数据。

论文地址：https://arxiv.org/abs/2211.04325

目前这篇论文已被ICML 2024接收。著名的硅谷天才少年Alexandr Wang也转发了这篇论文，并附上了自己的一番见解。

他创办的Sca

原文链接：Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

文章来源：新智元

作者微信：AI_era

作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。