英伟达开源合成数据大模型：奖励模型，超过GPT-4 Turbo（英伟达开发板有什么用）

AIGC动态欢迎阅读

原标题：英伟达开源合成数据大模型：奖励模型，超过GPT-4

Turbo

关键字：模型,数据,自然语言,高效,框架

文章来源：算法邦

内容字数：0字

内容摘要：

直播预告 | 6月18日上午10点，「智猩猩AI新青年讲座」第240讲正式开讲，邀请到德州大学奥斯汀分校刘星超博士将直播讲解《利用直线概率流加速Stable Diffusion的训练推理》，欢迎扫码报名~6月15日，全球AI领导者英伟达（Nvidia）在官网开源了，专门用于生成合成数据的大模型Nemotron-4 340B。

开发人员通过该模型，可以快速生成医疗、金融、制造、营销等不同领域的数据，用于预训练和微调特定的大模型。

据悉，Nemotron-4 340B一共有基础模型、奖励模型和指导模型三个版本，支持RLHF（人类反馈强化学习）、LoRA（低序适配）、SFT（监督式微调）等主流高效微调方法。

其中，奖励模型版本更是登上了huggingface的奖励模型排行榜的第一名，击败了OpenAI

的GPT-4 turo、谷歌的Gemini-1.5 Pro、Cohere的may等知名厂商的产品。

而指导模型在MMLU、GSM8K、MBPP等知名测试平台的评估数据击败了Llama-3 70B、通义千问-2-72B、Claude-3-Sonnet等知名开/闭源模型，仅次于OpenAI的GPT-

原文链接：英伟达开源合成数据大模型：奖励模型，超过GPT-4 Turbo