Nature 重磅论文:用 AI 生成的数据训练 AI,会让大模型崩溃(ai怎么做数据分析 工具)

AIGC动态欢迎阅读

原标题:Nature 重磅论文:用 AI 生成的数据训练 AI,会让大模型

崩溃

关键字:模型,数据,误差,概率,函数

文章来源:Founder Park

内容字数:0字

内容摘要:

文章转载自「新智元」。我们知道,训练大模型需要大量的数据积累,随着技术的发展,高质量数据逐渐成为AI进步的强烈需求。

面对这样的情况下,为了提升模型能力,人们开始使用AI生成的数据返回再次训练AI,并没有怀疑这种行为是否会出现问题。

不过,最新研究发现,用 AI 生成的数据训练 AI,模型可能会崩溃。

牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文,今天登上了 Nature 封面。如果放任大模型用自动生成的数据训练自己,AI 可能会自我退化,在短短几代内将原始内容迭代成无法挽回的胡言乱语。如今,LLM 已经强势入侵了人类的互联网,极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的,我们用网络数据训练出的 GPT-n,会发生什么?

研究者发现,如果在训练中不加区别地使用 AI 产生的内容,模型就会出现不可逆转的缺陷——原始内容分布的尾部(低概率事件)会消失。

这种效应,被称为「模型崩溃」。换句话说,合成数据就像是近亲繁殖,会产生质量低劣的后代。

模型崩溃在 LLM、变分自编码器 VAE 和高斯混合模型 GMM 中,都可能会发生。

有网友认为,是时候敲响警钟了

原文链接:Nature 重磅论文:用 AI 生成的数据训练 AI,会让大模型崩溃

联系作者

文章来源:Founder Park

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?