LLM数学性能暴涨168%，微软14人团队力作！合成数据2.0秘诀曝光，智能体生成教学（微软数学app用不了了）

原标题：LLM数学性能暴涨168%，微软14人团队力作！合成数据2.0秘诀曝光，智能

体生成教学

关键字：数据,模型,基准,研究人员

,智能

文章来源：新智元

内容字数：0字

新智元报道编辑：桃子

【新智元导读】合成数据2.0秘诀曝光了！来自微软的研究人员们提出了智能体框架AgentInstruct，能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3，在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。

AI科学家们为了解决这一难题，可谓是绞尽脑汁。

目前来看，合成数据或许就是大模型的未来，也成为业界公认的解决之法。

就连英伟达科学家Jim Fan曾发文表示，合成数据将提供下一万亿个高质量的训练token。

但是，用合成数据，并非完全对LLM训练有帮助。

前段时间，Nature封面研究显示，合成数据迭代9次后，会让大模型崩溃。而且，类似的研究比比皆是。

那么，我们该怎么办呢？

最近，微软团队提出了可扩展的智能体框架——AgentInstruct，可自动创建大量多样化、高质量的合成数据。

它最大的优势在于，仅只用原始数据源，就能创建完整的提示和回应。

论文地址：https://arxiv.org/pdf/2407.03502

对此，研究人员使用AgentInstruct，创建了2500万对「后训练」数据集，涵盖了多种使用技能，如文本编

原文链接：LLM数学性能暴涨168%，微软14人团队力作！合成数据2.0秘诀曝光，智能体生成教学

文章来源：新智元

作者微信：

作者简介：