Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据(触礁是什么损失)

AIGC动态欢迎阅读

原标题:Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本

数据

关键字:数据,政策,报告,模型

,文本

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:乔杨

【新智元导读】训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。然而,Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水,他们预测,互联网上可用的人类文本数据将在四年后,即2028年耗尽。数据和算力,是AI大模型最重要的两把「铲子」。

算力方面,英伟达的不断创新和各家代工厂的产能提高,让世界各处的数据中心拔地而起,研究人员暂时不用担心计算资源。

然而,近些年来,数据成为愈发严峻的问题。

根据华尔街日报的报道,OpenAI

在训练GPT-5时已经遇到了文本数据不足的问题,正在考虑使用Youtube公开视频转录出的文本。

关于「数据耗尽」这个问题,非营利研究机构Epoch AI在6月4日发布了一篇最新论文。

根据他们的预测,未来10年内,数据增长的速度无法支撑起大模型的扩展,LLM会在2028年耗尽互联网上的所有文本数据。

论文地址:https://arxiv.org/abs/2211.04325

目前这篇论文已被ICML 2024接收。著名的硅谷天才少年Alexandr Wang也转发了这篇论文,并附上了自己的一番见解。

他创办的Sca

原文链接:Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据

联系作者

文章来源:新智元

作者微信:AI_era

作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

0
分享到:
没有账号? 忘记密码?