大模型「强崩溃」！Meta新作：合成数据有「剧毒」，1%即成LLM杀手（天然磨刀石好还是合成的磨刀石好）

原标题：大模型「强崩溃」！Meta新作：合成数据

有「剧毒」，1%即成LLM杀手

关键字：数据,模型,定理,理论,质量

文章来源：新智元

内容字数：0字

新智元报道编辑：乔杨桃子

【新智元导读】1%合成数据，就能让模型瞬间崩溃！来自Meta、NYU等机构团队证实，「微量」合成数据便让LLM弱不可堪。甚至，参数规模越大，模型崩溃越严重。1%的合成数据，就让LLM完全崩溃了？

7月，登上Nature封面一篇论文证实，用合成数据训练模型就相当于「近亲繁殖」，9次迭代后就会让模型原地崩溃。

论文地址：https://www.nature.com/articles/s41586-024-07566-y

然而，许多大佬都不同意这篇文章的方法和结论。

比如，Scale AI的CEO Alexandr Wang就很看好合成数据的前景，英伟达发布的开源模型Nemotron-4 340B甚至使用了98%的合成数据。

最近，Meta、纽约大学、UCLA机构发表的最新论文，再一次动摇了这些大佬们的结论。

论文地址：https://arxiv.org/abs/2410.04840

他们发现，即使合成数据仅仅占到总数据集的最小部分，甚至是1%的比例，仍然可能导致模型崩溃。

甚至，ChatGPT

和Llama这种较大的模型，还可能放大这种「崩溃」现象。

强模型崩溃，

原文链接：大模型「强崩溃」！Meta新作：合成数据有「剧毒」，1%即成LLM杀手

文章来源：新智元

作者微信：

作者简介：