4轮暴训，Llama 7B击败GPT-4！Meta等让LLM「分饰三角」自评自进化

原标题：4轮暴训，Llama 7B击败GPT-4

！Meta等让LLM「分饰三角」自评自进化

文章来源：新智元

内容字数：0字

新智元报道编辑：编辑部

【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型，给「超级对齐」指条明路：让AI自己当裁判，自我改进对齐，效果秒杀自我奖励模型。LLM对数据的大量消耗，不仅体现在预训练语料上，还体现在RLHF、DPO等对齐阶段。

后者不仅依赖昂贵的人工标注数据，而且很可能让人类水平限制LLM的进一步发展。

今年1月，Meta和NYU的团队就提出了语言模型的自我奖励机制，使用LLM-as-a-Judge的提示机制，让模型在训练期间进行自我反馈。

论文地址：https://arxiv.org/abs/2401.10020

论文发现，即使不依靠人类标注者，LLM也能通过评价自己的响应实现性能提升。

最近，这个团队又发表了一篇研究，将LLM「自我奖励」这件事情再拔高了一个层次。

论文地址：https://arxiv.org/abs/2407.19594

毕竟是自己给自己打分，因此不能只关注模型作为actor如何从反馈中优化，也需要保证模型作为judge具备优秀的自我评价能力。

之前的研究就因为过于关注前者而忽略后者，造成了迭代训练期间性能的过快饱和。

甚至，还有可能造

原文链接：4轮暴训，Llama 7B击败GPT-4！Meta等让LLM「分饰三角」自评自进化

文章来源：新智元

作者微信：

作者简介：