LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学(微软数学app用不了了)

AIGC动态欢迎阅读

原标题:LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能

体生成教学

关键字:数据,模型,基准,研究人员

,智能

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:桃子

【新智元导读】合成数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。

AI科学家们为了解决这一难题,可谓是绞尽脑汁。

目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法。

就连英伟达科学家Jim Fan曾发文表示,合成数据将提供下一万亿个高质量的训练token。

但是,用合成数据,并非完全对LLM训练有帮助。

前段时间,Nature封面研究显示,合成数据迭代9次后,会让大模型崩溃。而且,类似的研究比比皆是。

那么,我们该怎么办呢?

最近,微软团队提出了可扩展的智能体框架——AgentInstruct,可自动创建大量多样化、高质量的合成数据。

它最大的优势在于,仅只用原始数据源,就能创建完整的提示和回应。

论文地址:https://arxiv.org/pdf/2407.03502

对此,研究人员使用AgentInstruct,创建了2500万对「后训练」数据集,涵盖了多种使用技能,如文本编

原文链接:LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

联系作者

文章来源:新智元

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?