斯坦福新作：无指令调优的指令遵循（斯坦福ms）

AIGC动态欢迎阅读

原标题：斯坦福新作：无指令

调优的指令遵循

文章来源：机器之心

内容字数：0字

内容摘要：

机器之心报道

编辑：杜伟、陈陈指令调优（Instruction tuning）是一种优化技术，通过对模型的输入进行微调，以使其更好地适应特定任务。先前的研究表明，指令调优样本效率是很高效的，只需要大约 1000 个指令-响应对或精心制作的提示和少量指令-响应示例即可。本文中，来自斯坦福大学的研究者更进一步探索了这样一种想法，即指令遵循甚至可以隐式地从语言模型中产生，即通过并非明确设计的方法产生。本文发现了两种执行隐式指令调优的适应形式，与显式指令调优相比，它们似乎存在缺陷：（1）响应调优，仅对响应进行训练；（2）单任务调优，仅对来自狭窄目标领域的数据进行训练，如诗歌生成。论文标题：Instruction Following without Instruction Tuning

论文地址：https://arxiv.org/pdf/2409.14254

博客地址：https://nlp.stanford.edu/~johnhew/instruction-following.html

首先，该研究证明，响应调优（仅对响应进行训练而不对其指令进行条件限制）足以产生指令遵循。特别是使用 LIM

原文链接：斯坦福新作：无指令调优的指令遵循