贾佳亚团队新作：10k数据让大模型数学能力超GPT-4（贾佳亚教授出生地是哪里）

原标题：贾佳亚团队新作：10k数据让大模型数学能力超GPT-4关键字：模型,步骤,错误

,数据,数学

文章来源：量子位

内容字数：0字

港中文贾佳亚团队投稿量子位 | 公众号 QbitAI只要10k数据，就能让大模型的数学成绩增长5.6%。

港中文贾佳亚团队推出了基于推理步骤的大模型优化策略，能够像老师教学生一样优化大模型。

利用这种方法，72B Qwen模型的数学成绩超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一众闭源模型。

老师在纠正学生错误时，不会只告诉学生最终答案错了，还会告知具体哪个步骤错了，以此快速纠正其错误。

贾佳亚团队正是学习了这一特点，将斯坦福团队推出的DPO（直接偏好优化）进一步细化，形成了逐步应用的策略Step-DPO。

该方法让Qwen-72B模型在多个数据集上进步明显，同时也获得了更强的长链条推理任务能力。

像教育学生一样训练大模型如何强化推理能力，一直是大语言模型领域的重要问题之一。

常见的思维链策略通过在输入提示词部分添加“Let’s think step by step.”，来使模型在输出中完成逐步推理，但对于复杂的问题，仅通过修改提示词不足以引导模型正确解决问题。

由于复杂问题涉及的推理过程较长，有时包含数十个推理步骤，一旦其中任一步骤出错，就难以得到正确

文章来源：量子位

作者微信：QbitAI

作者简介：追踪人工智能新趋势，关注科技行业新突破