大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手(天然磨刀石好还是合成的磨刀石好)

AIGC动态欢迎阅读

原标题:大模型「强崩溃」!Meta新作:合成数据

有「剧毒」,1%即成LLM杀手

关键字:数据,模型,定理,理论,质量

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:乔杨桃子

【新智元导读】1%合成数据,就能让模型瞬间崩溃!来自Meta、NYU等机构团队证实,「微量」合成数据便让LLM弱不可堪。甚至,参数规模越大,模型崩溃越严重。1%的合成数据,就让LLM完全崩溃了?

7月,登上Nature封面一篇论文证实,用合成数据训练模型就相当于「近亲繁殖」,9次迭代后就会让模型原地崩溃。

论文地址:https://www.nature.com/articles/s41586-024-07566-y

然而,许多大佬都不同意这篇文章的方法和结论。

比如,Scale AI的CEO Alexandr Wang就很看好合成数据的前景,英伟达发布的开源模型Nemotron-4 340B甚至使用了98%的合成数据。

最近,Meta、纽约大学、UCLA机构发表的最新论文,再一次动摇了这些大佬们的结论。

论文地址:https://arxiv.org/abs/2410.04840

他们发现,即使合成数据仅仅占到总数据集的最小部分,甚至是1%的比例,仍然可能导致模型崩溃。

甚至,ChatGPT

和Llama这种较大的模型,还可能放大这种「崩溃」现象。

强模型崩溃,

原文链接:大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手

联系作者

文章来源:新智元

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?